word2vec代码_word2vec的前世今生

思想:Representing words by their context

Distributional semantics :⼀个单词的意思是由经常出现在它附近的单词给出的

  • “You shall know a word by the company it keeps” (J. R. Firth 1957: 11)
  • 现代统计NLP最成功的理念之⼀,有点物以类聚,⼈以群分的感觉
  • 当⼀个单词 出现在⽂本中时,它的上下⽂是出现在其附近的⼀组单词(在⼀个固定⼤⼩的窗⼝中)。

30ecb5d2c15b1e8ea795d28b30f8884b.png

Word2vec (Mikolov et al. 2013)是⼀个学习单词向量的框架IDEA:

  • 我们有⼤量的⽂本 (corpus means 'body' in Latin. 复数为corpora)
  • 固定词汇表中的每个单词都由⼀个向量表示
  • ⽂本中的每个位置 ,其中有⼀个中⼼词 和上下⽂(“外部”)单词
  • 使⽤ 和 的 词向量的相似性 来计算给定 的 的 概率 (反之亦然)
  • 不断调整词向量 来最⼤化这个概率

Word2vec objective function

4c479492d7939e83819a1a8cc98e4991.png

95a61f0c53267aab94c4923e9cb2bc4d.png

012fea1e789fb27cd49ed7b2a56b16a0.png

9cc871c26090a285d6dc5006ec1dc3ba.png

4e7907c8efe5504f981a8a9a9a448a55.png

62a1b2a628803ded7667a6e92d88b204.png

Word2vec 是⼀个软件包实际上包含:

  1. 两个算法:continuous bag-of-words(CBOW)和 skip-gram。CBOW 是根据中⼼词周围的上下⽂单词来预测该词的词向量。skip-gram 则相反,是根据中⼼词预测周围上下⽂的词的概率分布。
  2. 两个训练⽅法:negative sampling 和 hierarchical softmax。Negative sampling 通过抽取负样本来定义⽬标,hierarchical softmax 通过使⽤⼀个有效的树结构来计算所有词的概率来定义⽬标。

参考资料

徐啸:[CS224n笔记] L1 Introduction and Word Vectors​zhuanlan.zhihu.com
e42741509dec36990cb2283cd60c63b6.png

这一篇是CS224n的笔记,损失函数推导很详尽,内容以课件为主。

天雨粟:理解 Word2Vec 之 Skip-Gram 模型​zhuanlan.zhihu.com
90e6ea8f56b4c7860432611e223bdbb6.png

这一篇全是干货

天雨粟:基于TensorFlow实现Skip-Gram模型​zhuanlan.zhihu.com
106e0436ce6a48f5db9e4a7219bff610.png

上一篇的实战篇,看了代码你啥都知道了

我想我是她的海:一篇浅显易懂的word2vec原理讲解​zhuanlan.zhihu.com
3148d4d1f6a4729842bda861dfab94af.png

补充CBOW的知识

张云:关于word2vec,我有话要说​zhuanlan.zhihu.com
a56a5eddcb31df6b297f0713c27dd4d8.png

实际训练word2vec过程中会遇到的问题

一文搞懂短小精悍的全能fastText​mp.weixin.qq.com
e7f131cdcf8ab2e35af45cceea27be2d.png

fasttext

TianMin:word2vec中的负采样与分层softmax​zhuanlan.zhihu.com

负采样和分层softmaxt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值