文档表示:
向量空间模型(Vector Space Model,VSM):
向量空间模型是一种将文档转化成向量的方式,向量中的每个元素是一个个的实数,每个元素对应着一个词(term),实数是通过tf-idf计算出来的。向量空间模型并没有考虑词与词之间的顺序,也没有抓住词与词之间的关系,它假设各个词之间是相互独立的。
词嵌入:
词嵌入是一种对文本算法学习后的表示形式,甚至,你可以理解为一个单词在算法中的储存形式。
词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术。每个单词被映射成一个向量(初始随机化),并且这个向量可以通过神经网络的方式来学习更新。因此这项技术基本集中应用与深度学习领域。这项技术的关键点在于如何用密集的分布式向量来表示每个单词。这样做的好处在于与one-hot这样的编码对比,使用词嵌入表示的单词向量往往只有几十或者几百个维度。极大的减少了计算和储存量。
Word2vec:
模型是建立在分布相似性理论上的,即相似的词上下文也是相似的。上下文对应就是当前词前后k个长度内的词。