Embeding技术：word2vec Parameter Learning Explained

最新推荐文章于 2024-08-03 08:00:00 发布

菜小白—NLP

最新推荐文章于 2024-08-03 08:00:00 发布

阅读量945

点赞数 2

分类专栏： NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ACM_hades/article/details/104031689

版权

本文深入解析word2vec模型，包括CBOW和skip-gram两种模型的原理，以及分层softmax和负采样两种优化技术，帮助理解词嵌入的参数学习过程。

摘要由CSDN通过智能技术生成

参考链接

论文链接：https://arxiv.org/pdf/1411.2738v4.pdf

一、主要内容：

word2vec模型：
- CBOW 模型：continuous bag-of-word
- SG模型：skip-gram
优化技术：
- 分层softmax：hierarchical softmax
- 负采样：negative sampling

二、CBOW 模型：

1、One-word context 模型：
- 模型图：
- 上图是一个全连接神经网络，在预测当前此时我们只使用前一个词作为上下文信息，就像一个二元模型(bigram model)一样。
- 输入层是一个单词的one-hot表示， $V$ 是词汇表的大小，隐藏层单元个数为 $N$
- 输入层到隐藏层：连接矩阵为 $W_{V×N}$ ，隐藏层与输入层的连接是简单的线性连接(即没有激活函数)，两层的连接公式为:
- $v_{wI}^T$ 是 $W^T$ 的列(即 $W$ 的行)， $w_I$ 是输入的词。
- 由于 $X$ 是单词的one-hot表示，若 $X$ 表示词汇表的第 $k$ 个单词，则 $X$ 列向量除了第 $k$ 个元素为1以外其他元素都是0,这样 $h=W^TX$ ，这相当于取出 $W^T$ 的第 $k$ 列(即 $W$ 的第 $k$ 行)作为 $h$ ，实质这就是第 $k$ 个单词的embeding表示.
- 隐藏到输出层：连接矩阵为 $W_{N × V}'$ , 两层的连接公式为: $U={W'}^T h$ $U$ 是一个大小为 $V$ 的列向量，每个元素对于词汇表的一个词，我把每个元素称为其对应词的分数 (score)，第 $j$ 个词的分数就是公式如下:
  
  $u_j$ 是词汇表中第 $j$ 个词的得分也是输出层每个单元的输入， ${ {v_{wj}}'}^T$ 是 $W^{'}$ 的第 $j$ 列。
- 然后将 $U$ 经过一softmax层(softmax：一个对数线性分类模型)得到每个单词的后验分布(即概率值)，softmax层表达式(第 $j$ 个词的后验概率):
  
  上式的含义是输入词汇表的第 $I$ 个单词输出第 $j$ 个词的概率，即第 $j$ 个词在第 $I$ 个词后面的概率，其中 $y_j$ 是输出层第 $j$ 个单元的输出，对应于词汇表的第 $j$ 个词。
- 注意： $v_w$ 和 $v_w'$ 是对应单词 $w$ 的两表示，我们将他们分别称为 $w$ 的输入向量与输出向量，输入向量 $v_w$ 是输入层到隐藏层连接矩阵 $W$ 的行，输出向量是隐藏层到输出层连接矩阵 $W^{'}$ 的列
- 隐藏层到输出层参数

最低0.47元/天解锁文章

菜小白—NLP

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

菜小白—NLP CSDN认证博客专家 CSDN认证企业博客

码龄7年

135: 原创

5万+: 周排名

154万+: 总排名

26万+: 访问

: 等级

3884: 积分

79: 粉丝

261: 获赞

44: 评论

820: 收藏

私信

关注

热门文章

分类专栏

RL
NLP 40篇
ACM 22篇
Python 17篇
Tensorflow 18篇
ML 17篇
Pytorch 2篇

最新评论

【机器学习】密度聚类算法之HDBSCAN
小吕布鑫爱貂蝉: 和官方网站的不太一样，聚类簇那儿是减lamba(birth)而不是lamba(death)，不然最后的簇无法计算稳定性
【机器学习】密度聚类算法之HDBSCAN
小吕布鑫爱貂蝉: 同样的，卡在这一步上了
优先队列
Linzy️: data[]似乎也可以不用，用cin>>Heap[i]存入就行，降低空间复杂度
优先队列
Wind_Qiu: pop函数有两个地方有错，第30行，int result = Heap[1];你的堆是从下标1开始的，不是从下标0开始的。第31行，int x = Heap[Heap_size--]; 先是记录最后一个元素，size再减减，先减减的话记录的是倒数第二个元素，这样会造成倒数第一个元素丢失的。
支持向量机(SVM)——python代码实现
qq_63937295: 你好，你解决这个问题了吗，我也想知道怎么改

最新文章

目录

目录

分类专栏

RL
NLP 40篇
ACM 22篇
Python 17篇
Tensorflow 18篇
ML 17篇
Pytorch 2篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。