word2vec skip gram 直观理解、训练过程和负采样

本文深入解析Word2Vec中的Skip-Gram模型,介绍如何通过给定单词预测与其共现的其他单词的概率,并详细阐述模型的网络结构、损失函数及训练过程。此外,还介绍了用于优化计算效率的Hierarchical Softmax和Negative Sampling方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

word2vec skip gram 直观理解

  • 目标
    根据给定的单词预测与该单词同处一个窗口内其他每个单词出现的概率
  • 目标损失函数:
    针对每个窗口内非target word 的context word,构建
    C ( θ ) = − ∑ w i ∑ c = 1 C l o g p ( w O , c ∣ w I ) C(\theta) = - \sum_{w_i}\sum_{c=1}^Clogp(w_O,c | w_I) C(θ)=wic=1Clogp(wO,cwI)损失函数并利用最大似然估计进行求解。在这里插入图片描述
  • 网络结构
    第一层为输入的单词one-hot向量,维度为1xV,V代表词表中所有词的个数。
    中间为隐层,神经元个数代表了压缩后每个词向量的维数N,常见个数有100,200,300。
    隐层和输入层间的矩阵V维度为VxN,待学习完成后,每一行的向量对应着词表中每个词作为target词时的词向量。
    隐层和输出层间的矩阵N维度为NxV,待学习完成后,每一列的向量对应着词表中每个词每个词作为context 词时的词向量。
    在这里插入图片描述
  • 隐层权重矩阵V
    我们用h代表输入词的one-hot向量x和V矩阵点积之后的结果,对应V矩阵中的第k行,x中等于1的那行为k,k的取值范围是整个词表的大小V。

在这里插入图片描述

  • 隐层权重矩阵N
    wj为窗口内任意一个context词,其向量 v w j ′ v'_{w_j} v
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值