word2vec skip gram 直观理解、训练过程和负采样

最新推荐文章于 2025-02-19 19:38:53 发布

Bernard_Yang

最新推荐文章于 2025-02-19 19:38:53 发布

阅读量1k

点赞数 1

分类专栏： NLP 文章标签： nlp 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38224810/article/details/114275703

版权

本文深入解析Word2Vec中的Skip-Gram模型，介绍如何通过给定单词预测与其共现的其他单词的概率，并详细阐述模型的网络结构、损失函数及训练过程。此外，还介绍了用于优化计算效率的Hierarchical Softmax和Negative Sampling方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

word2vec skip gram 直观理解

目标
根据给定的单词预测与该单词同处一个窗口内其他每个单词出现的概率
目标损失函数：
针对每个窗口内非target word 的context word，构建
$C(\theta) = - \sum_{w_i}\sum_{c=1}^Clogp(w_O,c | w_I)$ 损失函数并利用最大似然估计进行求解。
网络结构
第一层为输入的单词one-hot向量，维度为1xV，V代表词表中所有词的个数。
中间为隐层，神经元个数代表了压缩后每个词向量的维数N，常见个数有100，200，300。
隐层和输入层间的矩阵V维度为VxN，待学习完成后，每一行的向量对应着词表中每个词作为target词时的词向量。
隐层和输出层间的矩阵N维度为NxV，待学习完成后，每一列的向量对应着词表中每个词每个词作为context 词时的词向量。
隐层权重矩阵V
我们用h代表输入词的one-hot向量x和V矩阵点积之后的结果，对应V矩阵中的第k行，x中等于1的那行为k，k的取值范围是整个词表的大小V。

在这里插入图片描述

隐层权重矩阵N
wj为窗口内任意一个context词，其向量 $v'_{w_j}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。