为把人们所理解的自然语言 让 计算机也能够 认识并且操作,需要将人的语言(即文字)转换成计算机的语言(即数字)
我们将其称为词向量。
把文字转换成词向量有多种编码方式:大致分为两类,离散表示和分布式表示。
离散表示即 无法衡量词与词之间的关系,即在编码过程中并不考虑词的顺序,以此为代表的编码方式包括:
one-hot
bag of words
TF-IDF
N-gram
分布式表示 即用一个词附近的其他词来表示这个词。以此为代表的编码方式包括:
共现矩阵
NNLM 神经网络语言模型
CBOW(continue bag of words)
接下来简单介绍这几种编码方式的特点:
one-hot:把语料中的所有词列在一个词典中,每个词都有唯一的索引,在词典中的顺序与在语料中的顺序无关,如果词典 里有十个词,那么这个词典就是1*10维的,对于语料中的每一个词,都构造一个1*10维的向量,其中语料中的词出现过一次或者多次,多记为1,没出现过则记为0.
缺点:
词矩阵太稀疏,并且没有考虑词出现的频率。