Paragraph2vec(段向量)-------基于《Distributed Representations of Sentences and Documents》

本文基于《Distributed Representations of Sentences and Documents》,介绍了段向量paragraph vector的概念,对比了传统词袋模型的局限性,并详细阐述了paragraph vector算法,包括word2vec原理及其在段落表示中的应用。段向量旨在捕捉上下文信息,用于解决词序无关的语义问题。
摘要由CSDN通过智能技术生成

目录

一、概要

1)背景

2)摘要

二、内容

1)传统的bag of words

2)本文的paragraph vector

3)算法

(1)word2vec的算法原理

(2)paragraph vector算法

三、总结


一、概要

1)背景

本文是我学习word2vec和paragraph2vec之后写下的一篇文章,如有错误,请指正以共同学习。

2)摘要

paragraph vector,顾名思义——段向量,是对段落的一种的向量化表示。如果之前对word vector了解较少,建议阅读《word2vec 的数学原理》。那么paragraph vector有什么用呢?说白了就是保存上下文信息。举个简单的例子,一个句子的下一个词是什么,一定只和本句子有关吗?答案自然是否定的。例如,一个句子为:那是(),请填空。显然,根据句子本身无法推断出括号里需要填的是什么,有可能那是猪,也有可能那是猫。这就需要根据整个段落的信息来判断到底是猪还是猫了。这个时候,段向量就派上了用场。

本文主要是根据Mikolov的《Distributed Representations of Sentences and Documents》总结得到的。其英文原文很容易阅读,英语不错的同学建议直接阅读原文(强烈推荐作者其他关于word embedding的的文章)。

论文百度网盘链接:https://pan.baidu.com/s/1mY3QwUzbRLD9gYcYPhf9mA 密码:nns4。

二、内容

1)传统的bag of words

词袋模型:对于一个文本,忽略词序和文法,将整个文本仅仅看作一些词语的集合。显然,这种模型的局限性很大。例如对于词序,“草吃牛”和“牛吃草”的意义相去甚远,但是在词袋模型中

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值