doc2vec计算句子相似度_3分钟热情学NLP第8篇

12 篇文章 0 订阅
11 篇文章 0 订阅

3分钟热情学NLP第8篇,doc2vec计算句子相似度

word2vec面临的问题

word2vec计算句子或长文本的方法,大致的是:
1、对文本进行分词;
2、计算各个分词的词向量;
3、对词向量取平均值,或者其他方式进行词向量的拼接。

显而易见,这样的的计算方法的缺点是:丢失了文本之间的语序
比如:我喜欢小明,小明喜欢我。这2句话,语义不一样;但是通过上面的分词+词向量的方法,向量值是相同的。

因此,在word2vec的基础上,有研究人员提出了文本向量的概念doc2vec

2、doc2vec文本向量

Doc2vec方法是一种无监督算法,能从变长的文本(例如:句子、段落或文档)中学习得到固定长度的特征表示。Doc2vec也可以叫做 Paragraph Vector、Sentence Embeddings,它可以获得句子、段落和文档的向量表达,是Word2Vec的拓展,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练样本。Doc2vec算法用于预测一个向量来表示不同的文档 ,该模型的结构潜在的克服了词袋模型的缺点。

参考:https://zhuanlan.zhihu.com/p/136096645

如下图所示:

doc2vec算法


论文原文:http://cs.stanford.edu/~quocle/paragraph_vector.pdf

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Doc2vec是一种无监督的习算法,用于将文档转换为向量表示。它可以用于计算文本之间的相似度以及其他自然语言处理任务。在Python中,可以使用gensim库来训练和使用doc2vec模型。首先,需要使用TaggedLineDocument类读取文档数据,并将其传递给Doc2Vec类进行训练。训练完成后,可以使用model.docvecs来获取文本的向量表示。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [doc2vec:使用Gensim训练doc2vec模型的Python脚本](https://download.csdn.net/download/weixin_42134051/18293286)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Python使用doc2vec和LR进行文本分类](https://blog.csdn.net/baidu_15113429/article/details/77775731)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [python习-106-Doc2vec习使用](https://blog.csdn.net/u013521274/article/details/85039471)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

13线

谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值