word2vec公式推导及原理简记

word2vec通过向量表示词语,采用CBOW和skip-gram模型,结合层次softmax和负采样进行训练。该模型利用词频构建哈夫曼树优化预测速度,同时通过负采样简化模型并提高效率。通过对模型的公式推导,理解了词向量如何反映词之间的差异和相关性。
摘要由CSDN通过智能技术生成

https://www.cnblogs.com/pinard/p/7243513.html

http://www.cnblogs.com/pinard/p/7249903.html

  1.  word2vec区别于one_hot映射方法,将词向量赋予含义并映射到向量空间,通过向量减法、点乘表示两词相差、相关性。
  2. 两种预测模型:Cbow(周围词向量预测中间词向量)和skip-gram(中间词向量预测周围词向量)。(设计的时候,预测谁就走谁的路径,用谁预测就用谁的vector,修正谁)
  3. 两种训练模型:Hierachical softmax(huffman树)和negtive sampling(权重采样负例)。
  • Hierachical softmax:(以Cbow为例, skip-gram的区别只是一开始和误差叠加到一个向量。)
  • 用huffman树代替传统神经网络, 速度快。但是对出现频率少对词需要对路径较长,比较慢。
  1. 按照词频构建哈夫曼树。
  2. 先把周围词向量加和,然后\sigma \left (x_{i} \Theta^{T} \right )为预测值。
  3. 顺着哈夫曼树走,
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值