word2vec Parameter Learning Explained论文笔记:CBOW,Skip-Gram,层次softmax与负采样解读

本文是对word2vec Parameter Learning Explained论文的笔记,主要介绍了word2vec的CBOW和Skip-Gram模型,以及提高计算效率的方法——层次softmax和负采样技术。CBOW模型利用上下文预测中心词,Skip-Gram则是用中心词预测上下文。层次softmax通过霍夫曼树结构优化了概率计算,而负采样则在训练时仅更新部分向量,提高了训练速度。
摘要由CSDN通过智能技术生成

前言

最近读了word2vec Parameter Learning Explained,觉得它是一篇很好的讲解word2vec的论文。

Continuous Bag-of-Word Model


  • One-word context

    连续词袋模型的思想是用上下文预测中心词,先推导只有一个中心词的情况,然后可以很容易的推广到多个中心词的情况以及Skip-Gram
    只有一个上下文的CBOW
    大致逻辑是:第一层神经元代表的是上下文对应的onehot向量,经过矩阵W的线性变换得到隐层表示h,然后经过W 的线性变换,再经过softmax得到输出y,即一个条件概率分布。然后计算y与真实标签的损失L,通过梯度下降更新参数。输入x是一个Vx1的onehot向量,W 是一个VxN 的矩阵,它的每个行向量代表输入词的词向量,W 是一个NxV 的矩阵,它的每个列向量可以看作输出词的词向量。
    x = [ 0 ⋮ 1 ⋮ 0 ] , W = [ w 1 T ⋮ w N T ] , W ′ = [ ∣ ⋯ ∣ w 1 ′ ⋯ w N ′ ∣ ⋯ ∣ ] x = \left[ \begin{matrix} 0 \\ \vdots \\ 1 \\ \vdots \\ 0 \end{matrix} \right], W = \left[ \begin{matrix} w_{1}^T \\ \vdots \\ w_{N}^T \end{matrix} \right], W^\prime = \left[ \begin{matrix} | & \cdots & | \\ w^\prime_{1} & \cdots & w^\prime_{N}\\ | & \cdots & | \end{matrix} \right] x=010

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值