【转】自然语言系列学习之表示学习与知识获取(二)word2vec

自然语言处理相关的对象包括词汇,词义,短语,实体,句子,文档,还有比如说社会网络,知识表示等等。
在这里插入图片描述
本文通过词汇表示的基本知识介绍分布式表示的基本的思想和特点。 在词汇表示方面的经典模型是2013年google实习生Tomas Mikolov 在nips上发表论文《Efficient Estimation of Word Representation in Vector Space》,立刻引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是,word2vec是一个计算word vector的开源工具。
在这里插入图片描述
其背后用于计算word vector包括(上图)两个模型:跳字模型(右侧,skip-gram model)和连续词袋模型(左侧,continuous bag of words model,简称CBOW model)。这两个模型的基本思路非常简单,与传统的语言模型相比它忽略了词与词在句子里面的顺序关系,直接利用在大规模文本中每一个词上下文互相之间预测任务,去学习每一个词的分布式表示。

如左边图是continuous bag of words 模型,对于文本中每一个 t t t位置上的词是利用上下文,也就是当目标词前面出现的两个词和后面出现的两个词,通过相加出现四个词向量的和,利用和去预测中间中间目标词的向量,通过最大化的预测概率,就是在所有的数据集上,就可以学习到每一个词向量的信息。

如右图skip-gram模型,正好与continuous bag of words 模型相反,用中间的目标词去预测上下文的词。

Word2vec的优势在于:
一.它没有考虑句子里词与词之间顺序的关系
二.由于它取消了传统的神经网络的非线性的操作,极大提升了整个模型的计算效果,能够在大规模的数据上非常快的学习出一个高效的词汇表示模型。 利用这种词汇的表示,就可以很好的计算任意两个词之间的语义相似度,也就是说任意给两个词都可以去计算它们之间在这个空间里面的Proximity, 通过计算Proximity,可以给每一个词找到在这个空间里面距离最近的那些词。
在这里插入图片描述
那么你可以看到,如上图china这个词,找出最相关的词其实都是一些国家和地区的名字,基本上能够很好的去反映这些词汇背后的语义信息,这属于分布式表示一个非常好的特点。

那么word2vec另外一个非常有意思的发现,是在于它能够自动的发现词汇之间的隐含关系,譬如word2vec学习结束之后,可以看到非常多的国家,还有这些国家对应首都的名字,它们之间在空间里的相对位置是保持固定方向,也就是说我们可以得到china vector减去北京的vector约等于japan vector减去tokyo vetor,也就是说它能够智能的发现国家和首都之间的隐含关系,这是word2vec一个非常重要的特点,这个特点实际上被很多学者充分的利用,如来自于哈尔滨工业大学的卢婷老师团队的付瑞吉老师,就是利用word2vec的这个特点来自动的去发现这种词汇之间的上下位的关系。

在这里插入图片描述
比如狗和警犬,兔和长毛兔,马和斑马,那么他们之间其实都是存在的上位和下位的关系,这种关系也可以看成是前面有某一种隐含的关系,通过用word2vec自动的去发现这种词汇之间的隐含关系,那么就可以自动的去发现更多的这种带有上下位关系,这对于构建知识库其实是非常重要的。

word2vec是启发知识表示学习的一个非常重要思想来源。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值