Paragraph2vec(段向量）-------基于《Distributed Representations of Sentences and Documents》

最新推荐文章于 2024-07-17 03:43:37 发布

c-minus

最新推荐文章于 2024-07-17 03:43:37 发布

阅读量5.2k

点赞数 6

分类专栏： NLP 文章标签： paragraph2vec word2vec AI embedding

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cpluss/article/details/81355923

版权

本文基于《Distributed Representations of Sentences and Documents》，介绍了段向量paragraph vector的概念，对比了传统词袋模型的局限性，并详细阐述了paragraph vector算法，包括word2vec原理及其在段落表示中的应用。段向量旨在捕捉上下文信息，用于解决词序无关的语义问题。

摘要由CSDN通过智能技术生成

目录

1）传统的bag of words

2）本文的paragraph vector

（1）word2vec的算法原理

（2）paragraph vector算法

一、概要

1）背景

本文是我学习word2vec和paragraph2vec之后写下的一篇文章，如有错误，请指正以共同学习。

2）摘要

paragraph vector，顾名思义——段向量，是对段落的一种的向量化表示。如果之前对word vector了解较少，建议阅读《word2vec 的数学原理》。那么paragraph vector有什么用呢？说白了就是保存上下文信息。举个简单的例子，一个句子的下一个词是什么，一定只和本句子有关吗？答案自然是否定的。例如，一个句子为:那是（），请填空。显然，根据句子本身无法推断出括号里需要填的是什么，有可能那是猪，也有可能那是猫。这就需要根据整个段落的信息来判断到底是猪还是猫了。这个时候，段向量就派上了用场。

本文主要是根据Mikolov的《Distributed Representations of Sentences and Documents》总结得到的。其英文原文很容易阅读，英语不错的同学建议直接阅读原文（强烈推荐作者其他关于word embedding的的文章）。

论文百度网盘链接：https://pan.baidu.com/s/1mY3QwUzbRLD9gYcYPhf9mA 密码：nns4。

二、内容

1）传统的bag of words

词袋模型：对于一个文本，忽略词序和文法，将整个文本仅仅看作一些词语的集合。显然，这种模型的局限性很大。例如对于词序，“草吃牛”和“牛吃草”的意义相去甚远，但是在词袋模型中

最低0.47元/天解锁文章

关注

6
点赞
踩
18

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。