1 目的和思想
doc2vec 模型的目的:创建文档向量表示
doc2vec 的整体思想:在word2vec的基础上增加了可训练句子的矩阵
doc2vec 是无监督学习
模型出自论文: Distributed Representations of Sentences and Documents
2 模型原理
模型实现(两种方法):
- PV-DM + softmax
- PV-DBOW + softmax
训练阶段:给出一组文档,为每个单词生成词向量W,并为每个文档生成文档向量D,训练 softmax 隐藏层的权重。
预测阶段:固定 softmax 等权重以计算文档向量,随机初始化文档向量,不断迭代更新文档向量,所有参数均不变,训练使用时间少
2.1 PV-DM(段落向量的分布式存储模型)
在CBOW基础上,增加 Paragraph Vector表示文档的向量D,在D中取矩阵中的一列作为输入层的输入,在词向量W中取一列,将段落向量和词向量进行运算得到 X 向量,用 X 向量来预测词
2.2 PV-DBOW (段落向量的分布式单词包版本)
在skip-gram基础上,利用句子向量预测词,该算法实际上更快,并且消耗更少的内存,因为不需要保存词向量
3 doc2vec 总结
doc2vec 是在word2vec的基础上进行了修改,在输入层上增加了Paragraph vector,不仅能训练出词向量还能训练出句子向量,咋子迭代更新的过程中,句子向量不断的稳定,更能代表一句话的主旨。在预测新句子时,参数不变,用梯度下降求得句子向量,速度也非常快
通过学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签
4 应用任务
文中应用任务:
- 情感分析
- 信息检索