doc2vec 文档向量

1 目的和思想

doc2vec 模型的目的:创建文档向量表示
doc2vec 的整体思想:在word2vec的基础上增加了可训练句子的矩阵
doc2vec 是无监督学习
模型出自论文: Distributed Representations of Sentences and Documents

2 模型原理

模型实现(两种方法):

  1. PV-DM + softmax
  2. PV-DBOW + softmax

训练阶段:给出一组文档,为每个单词生成词向量W,并为每个文档生成文档向量D,训练 softmax 隐藏层的权重。
预测阶段:固定 softmax 等权重以计算文档向量,随机初始化文档向量,不断迭代更新文档向量,所有参数均不变,训练使用时间少

2.1 PV-DM(段落向量的分布式存储模型)

在CBOW基础上,增加 Paragraph Vector表示文档的向量D,在D中取矩阵中的一列作为输入层的输入,在词向量W中取一列,将段落向量和词向量进行运算得到 X 向量,用 X 向量来预测词
在这里插入图片描述

2.2 PV-DBOW (段落向量的分布式单词包版本)

在skip-gram基础上,利用句子向量预测词,该算法实际上更快,并且消耗更少的内存,因为不需要保存词向量
在这里插入图片描述

3 doc2vec 总结

doc2vec 是在word2vec的基础上进行了修改,在输入层上增加了Paragraph vector,不仅能训练出词向量还能训练出句子向量,咋子迭代更新的过程中,句子向量不断的稳定,更能代表一句话的主旨。在预测新句子时,参数不变,用梯度下降求得句子向量,速度也非常快

通过学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签

4 应用任务

文中应用任务:

  1. 情感分析
  2. 信息检索
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值