Abstract
传统的单词模型(bag-of-words)在实际应用中有一些缺点:
- They lose the ordering of the words,丢失了单词的顺序。
- They ignore semantics of the words,忽略了单词的语义。
因此本文提出了一种新的模型(Paragraph Vector),解决了上述的一些问题,带来了更好的效果。
Introduction
目前在很多的Text classification和clustering的应用中,使用最多的是bag-of-word模型,因为其表示起来简单,并且在实际应用中也表现了不错的准确度和有效性。
所谓bag-of-word模型,就是对一个单词进行独热编码,如果词典中总共有10000个词,某个词在词典中的索引比如是345,那么该单词的表示成一个10000维的向量,该向量第345位是1,其余均是0。
bag-of-word模型的表示方式注定了其会丢失单词与单词之间的联系,它不能反应两个词在语义上的联系,所以可能会出现两个词在语义上相近或相远,但是在模型中却有着一样的距离的现象。
本文提出的Paragraph Vector(PV) framework,可以实现从可变长度的句子或段落中学习出该句子或段落的特征。
所学出来的PV有许多用处,可以在给定上下文和一些词序列的情况下,预测出下一个词是什么。
本文的PV思想是受词向量(word representation)的工作启发得到的,在词向量学习的过程中。在词向量的学习的

本文提出Paragraph Vector(PV)模型,解决了传统bag-of-words模型忽略单词顺序和语义的问题。PV框架利用词向量表示,考虑单词顺序,适用于文本分类和聚类。实验表明,PV在情感分析、信息检索等任务上表现出色,且在不同上下文中能捕获语义信息。
最低0.47元/天 解锁文章
859

被折叠的 条评论
为什么被折叠?



