Abstract
传统的单词模型(bag-of-words)在实际应用中有一些缺点:
- They lose the ordering of the words,丢失了单词的顺序。
- They ignore semantics of the words,忽略了单词的语义。
因此本文提出了一种新的模型(Paragraph Vector),解决了上述的一些问题,带来了更好的效果。
Introduction
目前在很多的Text classification和clustering的应用中,使用最多的是bag-of-word模型,因为其表示起来简单,并且在实际应用中也表现了不错的准确度和有效性。
所谓bag-of-word模型,就是对一个单词进行独热编码,如果词典中总共有10000个词,某个词在词典中的索引比如是345,那么该单词的表示成一个10000维的向量,该向量第345位是1,其余均是0。
bag-of-word模型的表示方式注定了其会丢失单词与单词之间的联系,它不能反应两个词在语义上的联系,所以可能会出现两个词在语义上相近或相远,但是在模型中却有着一样的距离的现象。
本文提出的Paragraph Vector(PV) framework,可以实现从可变长度的句子或段落中学习出该句子或段落的特征。
所学出来的PV有许多用处,可以在给定上下文和一些词序列的情况下,预测出下一个词是什么。
本文的PV思想是受词向量(word representation)的工作启发得到的,在词向量学习的过程中。在词向量的学习的