》词向量:在很多时候需要把单词转换为数值,单词包含人类表达信息。
》离散表示:One-hot
语料库 John likes to watch movies. Mary likes too.
John also likes to watch football games.
词典 {"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}
One-hot表示 John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
too : [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]
·词典包含10个单词,每个单词有唯一索引
·在词典中的顺序和在句子中的顺序没有关联
》离散表示:Bag of Words
文档的向量表示可以直接将各词的词向量表示加和
词权重 ( 词在文档中的顺序没有被考虑)
TF-IDF (Term Frequency - Inverse Document Frequency)
词t的IDF weight
N: 文档总数, nt: 含有词t的文档数
[0.693, 1.386, 0.693, 0.693, 1.099, 0, 0, 0, 0.693, 0.693]
Binary weighting
短文本相似性,Bernoulli Naive Bayes
[1, 1, 1, 1, 1, 0, 0, 0, 1, 1]
》离散表示:Bi-gram和N-gram
优点:考虑了词的顺序
缺点:词表的膨胀
》离散表示的问题
无法平衡词向量之间的关系
太稀疏,很难捕捉文本的含义
·词表维度随着语料库增长膨胀
·n-gram词序列随语料库膨胀更快</