【转】自然语言系列学习之表示学习与知识获取（二）word2vec

vincent_hahaha

于 2021-05-28 17:13:23 发布

阅读量164

点赞数

分类专栏： trans系列

本文链接：https://blog.csdn.net/vincent_duan/article/details/117368197

版权

trans系列专栏收录该内容

10 篇文章 2 订阅

订阅专栏

自然语言处理相关的对象包括词汇，词义，短语，实体，句子，文档，还有比如说社会网络，知识表示等等。
在这里插入图片描述
本文通过词汇表示的基本知识介绍分布式表示的基本的思想和特点。在词汇表示方面的经典模型是2013年google实习生Tomas Mikolov 在nips上发表论文《Efficient Estimation of Word Representation in Vector Space》，立刻引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。随着深度学习（Deep Learning）在自然语言处理中应用的普及，很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是，word2vec是一个计算word vector的开源工具。
在这里插入图片描述
其背后用于计算word vector包括（上图）两个模型：跳字模型（右侧，skip-gram model）和连续词袋模型（左侧，continuous bag of words model，简称CBOW model）。这两个模型的基本思路非常简单，与传统的语言模型相比它忽略了词与词在句子里面的顺序关系，直接利用在大规模文本中每一个词上下文互相之间预测任务，去学习每一个词的分布式表示。

如左边图是continuous bag of words 模型，对于文本中每一个 $t$ 位置上的词是利用上下文，也就是当目标词前面出现的两个词和后面出现的两个词，通过相加出现四个词向量的和，利用和去预测中间中间目标词的向量，通过最大化的预测概率，就是在所有的数据集上，就可以学习到每一个词向量的信息。

如右图skip-gram模型，正好与continuous bag of words 模型相反，用中间的目标词去预测上下文的词。

Word2vec的优势在于：
一．它没有考虑句子里词与词之间顺序的关系
二．由于它取消了传统的神经网络的非线性的操作，极大提升了整个模型的计算效果，能够在大规模的数据上非常快的学习出一个高效的词汇表示模型。利用这种词汇的表示，就可以很好的计算任意两个词之间的语义相似度，也就是说任意给两个词都可以去计算它们之间在这个空间里面的Proximity，通过计算Proximity，可以给每一个词找到在这个空间里面距离最近的那些词。
在这里插入图片描述
那么你可以看到，如上图china这个词，找出最相关的词其实都是一些国家和地区的名字，基本上能够很好的去反映这些词汇背后的语义信息，这属于分布式表示一个非常好的特点。

那么word2vec另外一个非常有意思的发现，是在于它能够自动的发现词汇之间的隐含关系，譬如word2vec学习结束之后，可以看到非常多的国家，还有这些国家对应首都的名字，它们之间在空间里的相对位置是保持固定方向，也就是说我们可以得到china vector减去北京的vector约等于japan vector减去tokyo vetor，也就是说它能够智能的发现国家和首都之间的隐含关系，这是word2vec一个非常重要的特点，这个特点实际上被很多学者充分的利用，如来自于哈尔滨工业大学的卢婷老师团队的付瑞吉老师，就是利用word2vec的这个特点来自动的去发现这种词汇之间的上下位的关系。

在这里插入图片描述
比如狗和警犬，兔和长毛兔，马和斑马，那么他们之间其实都是存在的上位和下位的关系，这种关系也可以看成是前面有某一种隐含的关系，通过用word2vec自动的去发现这种词汇之间的隐含关系，那么就可以自动的去发现更多的这种带有上下位关系，这对于构建知识库其实是非常重要的。

word2vec是启发知识表示学习的一个非常重要思想来源。

vincent_hahaha

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【转】自然语言系列学习之表示学习与知识获取（二）word2vec

自然语言处理相关的对象包括词汇，词义，短语，实体，句子，文档，还有比如说社会网络，知识表示等等。本文通过词汇表示的基本知识介绍分布式表示的基本的思想和特点。在词汇表示方面的经典模型是2013年google实习生Tomas Mikolov 在nips上发表论文《Efficient Estimation of Word Representation in Vector Space》，立刻引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到
复制链接

扫一扫

专栏目录