word2vec Parameter Learning Explained论文笔记：CBOW,Skip-Gram,层次softmax与负采样解读

最新推荐文章于 2023-05-12 17:58:27 发布

HiddenDimenson

最新推荐文章于 2023-05-12 17:58:27 发布

阅读量866

点赞数 4

文章标签：自然语言处理 word2vec 层次softmax 负采样

本文链接：https://blog.csdn.net/HiddenDimenson/article/details/100728313

版权

本文是对word2vec Parameter Learning Explained论文的笔记，主要介绍了word2vec的CBOW和Skip-Gram模型，以及提高计算效率的方法——层次softmax和负采样技术。CBOW模型利用上下文预测中心词，Skip-Gram则是用中心词预测上下文。层次softmax通过霍夫曼树结构优化了概率计算，而负采样则在训练时仅更新部分向量，提高了训练速度。

摘要由CSDN通过智能技术生成

前言

最近读了word2vec Parameter Learning Explained，觉得它是一篇很好的讲解word2vec的论文。

Continuous Bag-of-Word Model

One-word context

连续词袋模型的思想是用上下文预测中心词，先推导只有一个中心词的情况，然后可以很容易的推广到多个中心词的情况以及Skip-Gram

大致逻辑是：第一层神经元代表的是上下文对应的onehot向量，经过矩阵W的线性变换得到隐层表示h，然后经过W^’ 的线性变换，再经过softmax得到输出y，即一个条件概率分布。然后计算y与真实标签的损失L，通过梯度下降更新参数。输入x是一个Vx1的onehot向量，W 是一个VxN 的矩阵，它的每个行向量代表输入词的词向量，W^’ 是一个NxV 的矩阵，它的每个列向量可以看作输出词的词向量。
$\left[ \begin{matrix} 0 \\ \vdots \\ 1 \\ \vdots \\ 0 \end{matrix} \right], W = \left[ \begin{matrix} w_{1}^T \\ \vdots \\ w_{N}^T \end{matrix} \right], W^\prime = \left[ \begin{matrix} | & \cdots & | \\ w^\prime_{1} & \cdots & w^\prime_{N}\\ | & \cdots & | \end{matrix} \right]$

最低0.47元/天解锁文章

HiddenDimenson

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
word2vec Parameter Learning Explained论文笔记：CBOW,Skip-Gram,层次softmax与负采样解读

目录前言Continuous Bag-of-Word ModelOne-word context功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart...
复制链接

扫一扫