NLP词向量表示：CBOW、Skip-gram、hierarchical softmax、negative sampling

最新推荐文章于 2021-07-19 17:05:28 发布

Leon_winter

最新推荐文章于 2021-07-19 17:05:28 发布

阅读量1k

点赞数

分类专栏： NLP 文章标签： CBOW Skip-gram hierarchical softmax negative sampling word2vec

本文链接：https://blog.csdn.net/Leon_winter/article/details/103025750

版权

文章目录

词向量表示
- CBOW
- Skip-gram
优化方法
- hierarchical softmax
- negative sampling

词向量表示

词向量表示模型比较基础的有word of bag、word2vec等，现在比较流行的还有Bert、Xlnet等，这篇blog先主要讲一下有名的skip-gram模型和CBOW模型，这俩都属于word2vec模型，同时总结一下比较有名的优化方法hierarchical softmax和negative sampling。

CBOW

对于一段文本 $w_1, w_2\dots w_n$ ，CBOW就是根据背景词预测中心词，设词库总量是 $V$ ，假设考虑邻近的 $2 c$ 个词，如果我们想要预测 $w_i$ ，那模型的输入就是 $w_{i-c},\dots,w_{i-1},w_{i+1},\dots,w_{i+c}$ ，输出是一个包含有 $V$ 个值的一维向量，一维向量的每个值代表着选取词库中各个词的概率，所以这个一维向量的每个值的总和为1，概率最高的词即是输出，如果模型效果好，概率最高的值指代的词就是预测结果，模型示意图如下：

模型的参数主要体现在两个参数矩阵 $A, B$ ，其中 $A=W_{V\times N}，B=W'_{N\times V}$ ，其中 $N$ 是我们事先规定的词向量的表示维度(dimension)，对于输入的2c个词，我们会用one-hot编码记录成矩阵 $X_{2c\times V}$ ，V是词库大小， $(X·A)_{2c\times N}$ 得到这2c个词的词向量表示，通过求和取平均，压缩成一维向量 $Avg\big((X·A)\big)_{1\times N}$ ，那么 $\Big(Avg\big((X·A)\big) \cdot B\Big)_{1\times V}$ 在经过softmax就是对词库V个词的概率映射。

上述是模型的前向传播过程，利用随机梯度下降，反向传播更新参数矩阵 $A, B$ ，最后使用模型时只用矩阵 $A$ ，对于输入的单词 $w$ ，经过相同规则的one-hot编码得到

最低0.47元/天解锁文章

Leon_winter

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP词向量表示：CBOW、Skip-gram、hierarchical softmax、negative sampling

文章目录Skip-gramCBOWhierarchical softmaxnegative samplingSkip-gramskip-gram，即规定了中间词及其上下文窗口大小，会在这个窗口内随机选skip个。CBOWhierarchical softmax设词库大小为V，层次softmax不再计算V个softmax，而是只计算logV个，具体如下：negative sampli...
复制链接

扫一扫