- one hot represention:one hot,count,td-idf
缺点:长度和词典长度相同,稀疏性,无法计算相似度
one hot表示单词,一个和词典大小一样的向量,单词出现的位置为1,其余位置为0。向量中只有一个值为1.
one hot表示句子,一个和词典大小一样的向量,句子中词出现的位置为1,其余位置为0。向量中1的个数小于等于句子中词的个数。
count表示句子,一个和词典大小一样的向量,句子中词出现的位置为该词在句子中出现的次数。向量中不为0的个数小于等于句子中词的个数。
td-idf表示句子,一个和词典大小一样的向量,句子中词出现的位置为该词在句子中出现的次数乘以改词idf值。向量中不为0的个数小于等于句子中词的个数。idf=log(文档总数)/(该词出现的文档数)
- distribution represention: word vect
词向量长度可以小于词典大小,可表示词向量的容量空间远大于one-hot向量。
将句子中出现的词的词向量取平均得到句子向量。