word2vec 模型理解分析的博客保存

http://www.hankcs.com/nlp/word2vec.html

https://www.jianshu.com/p/1c73e01f9e5c

做Graph相关paper,提到Skip-gram和Nagitive采样,有些记忆混淆,特地查阅读相关博客

1) CBOW 和Skip-Gram的区别为多对一和一对多的关系

2)传统的语言Embedding模型是纯粹基于神经网络的,输入到隐藏层再到输出,训练W和W‘,softmax多分类,计算量巨大

3)引入google的word2vec实现,模型的训练是方法,副产物vector才是我们想要的代表

4)google的word2vec里面通过hierarchical Softmax实现,引入huffman树,CBOW输入为求和,skip-gram为单个单词的vector,中间节点为隐藏层,叶子节点为对应的词向量。通过最大似然概率来实现,根据预测路径,得到路径编码0101010,根据路径,来更新节点的参数ceta和输入x_w, Skip-gram的不同是要集成多个相邻词向量,但要训练的参数ceta和x_w没变化。最终通过语料不断地训练,来更新vec,即我们想要的embedding词向量。

CBOW和skip-gram的核心区别为vector的更新,skip_gram要整体求和之后再更新

5)负采样理解类似

文章众多,博客众多,个人觉得上面两篇的理解会稍微好点,如果时间充裕,那么还是去读原始paper吧,这样更加精准。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值