词表示在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hotrepresentation(离散表示)和distributionrepresentation(分布式表示)
分布式表示:即通过共现矩阵的方式来进行词的表示,词的意义来源于其在语料中的分布。
离散式表示:即将语言表示为稠密、低维、连续的向量,每个词被表示为“a patternof activation”值构成的向量,词的意义以及与其他词之间的关系通过向量中的激活值和向量之间的相似性来反映。
分布式表示
分布式表示使用word-context矩阵来捕捉词的分布式特性,表示为 M,其元素表示一个词和一个 context 之间的信息强度,通常用 PMI 计算,从而,词向量可以用矩阵M的行来表示。
分布式表示优点:
(1) 词之间存在相似关系:
词之间存在“距离“概念,这对很多自然语言处理的任务非常有帮助
(2) 包含更多信息:
词向量能够包含更多信息,并且每一维都有特定的含义
离散式表示
离散式表示中,词的含义不仅蕴含在整个词向量的所有维度里,还蕴含在其他词向量的维度中,即离散表示的向量维度是不可解释的,特定维并不对应特定概念。one-hot representation把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。
例如:
书[0,0,1,0,0,0…]
one-hot representation相当于给每个词分配一个id,这个id中只有一个位置的数字是1,其余都是0,但是这种表示方式不能展示词与词之间