NLP-文献-Distributed Representations of Sentences and Documents

最新推荐文章于 2022-03-17 12:03:00 发布

熊孩子是我

最新推荐文章于 2022-03-17 12:03:00 发布

阅读量2.7k

点赞数

本文旨在提炼paragraph2vector的核心思想与方法，并尝试在代码层面进行应用。如有错漏，请不吝赐教。

任务梗概

向量化处理文本，往往是对文本应用机器学习算法的第一步。从2013年word2vector算法出现以来，许多研究者就开始尝试使用神经网络算法探寻文本表示。在句子，或更长一点的文本层面，有两种文本向量转化方式。一种是对句子中每个词的word2vector表示向量进行加权相加，另一种是通过构造句子的语法分析树来组合词向量并构成句子向量。前者丢失了词间的偏序。后者将方法应用限定在了句子层面，无法将应用扩展至多句文本。基于这样的研究现状，作者给出了无监督的针对句子、段落、甚至是长文档的向量化文本表示方法。

核心方法

Learning Vector Representation of Words
首先介绍word2vec训练词汇向量的基本思路框架。
Distributed Memory version of Paragraph Vector (PV-DM)

这个方法基本承袭了word2vec的思路：通过单层神经网络建立词语的预测模型，在此过程中得到副产物，即文本的向量化表达。不同之处仅在于，网络的输入中添加了当前上下文paragraph的表示矩阵D。其中，D对于paragraph的表示在同一段落中相同，而w的表示则是在所有段落中都保持一致（？什么作用）。网络的训练方式采用随机梯度下降反向传播。而当需要给出新来paragraph的向量化表示时，词的向量化表示与神经网络参数都已确定。