doc2vec 文档向量

最新推荐文章于 2023-06-02 12:41:43 发布

xiao___qiao

最新推荐文章于 2023-06-02 12:41:43 发布

阅读量759

点赞数

分类专栏： NLP 文章标签： nlp 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37074299/article/details/112362206

版权

NLP 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

目录

1 目的和思想
2 模型原理
- 2.1 PV-DM（段落向量的分布式存储模型）
- 2.2 PV-DBOW （段落向量的分布式单词包版本）
3 doc2vec 总结
4 应用任务

1 目的和思想

doc2vec 模型的目的：创建文档向量表示
doc2vec 的整体思想：在word2vec的基础上增加了可训练句子的矩阵
doc2vec 是无监督学习
模型出自论文: Distributed Representations of Sentences and Documents

2 模型原理

模型实现（两种方法）：

PV-DM + softmax
PV-DBOW + softmax

训练阶段：给出一组文档，为每个单词生成词向量W，并为每个文档生成文档向量D，训练 softmax 隐藏层的权重。
预测阶段：固定 softmax 等权重以计算文档向量，随机初始化文档向量，不断迭代更新文档向量，所有参数均不变，训练使用时间少

2.1 PV-DM（段落向量的分布式存储模型）

在CBOW基础上，增加 Paragraph Vector表示文档的向量D，在D中取矩阵中的一列作为输入层的输入，在词向量W中取一列，将段落向量和词向量进行运算得到 X 向量，用 X 向量来预测词
在这里插入图片描述

2.2 PV-DBOW （段落向量的分布式单词包版本）

在skip-gram基础上，利用句子向量预测词，该算法实际上更快，并且消耗更少的内存，因为不需要保存词向量
在这里插入图片描述

3 doc2vec 总结

doc2vec 是在word2vec的基础上进行了修改，在输入层上增加了Paragraph vector，不仅能训练出词向量还能训练出句子向量，咋子迭代更新的过程中，句子向量不断的稳定，更能代表一句话的主旨。在预测新句子时，参数不变，用梯度下降求得句子向量，速度也非常快

通过学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性，或者进一步可以给文档打标签

4 应用任务

文中应用任务：

情感分析
信息检索

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
doc2vec 文档向量

目录1 目的和思想2 模型原理2.1 PV-DM（段落向量的分布式存储模型）2.2 PV-DBOW （段落向量的分布式单词包版本）3 doc2vec 总结4 应用任务1 目的和思想doc2vec 模型的目的：创建文档向量表示doc2vec 的整体思想：在word2vec的基础上增加了可训练句子的矩阵doc2vec 是无监督学习模型出自论文: Distributed Representations of Sentences and Documents2 模型原理模型实现（两种方法）：PV-
复制链接

扫一扫

专栏目录

xiao___qiao CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

16万+: 周排名

86万+: 总排名

1万+: 访问

: 等级

330: 积分

4: 粉丝

11: 获赞

16: 评论

55: 收藏

私信

关注

热门文章

分类专栏

java
深度学习 1篇
graph 5篇
NLP 12篇
常见问题 1篇
pytorch 9篇
机器学习 1篇

最新评论

GraphSage 图向量
自在飞花69: 请问这个模型可以通过python进行引用吗？求代码求论文名称。研究所用，十分感谢
RNN
不吃西红柿丶: 写得挺好，要持续稳定输出哦~
pytorch 安装
不吃西红柿丶: 非常有用，感谢大佬的整理，期待后续大作
tensorboard 使用
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!
plt、nn 使用
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。