深入理解深度学习——Word Embedding（二）：连续词袋模型（CBOW, The Continuous Bag-of-Words Model）

von Neumann

已于 2022-01-30 19:44:55 修改

阅读量1.6w

点赞数 7

分类专栏：深入理解深度学习文章标签：深度学习自然语言处理机器学习 CBOW 连续词袋

于 2021-12-09 23:09:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hy592070616/article/details/121799373

版权

深入理解深度学习专栏收录该内容

58 篇文章

订阅专栏

分类目录：《深入理解深度学习》总目录
相关文章：
· Word Embedding（一）：word2vec
· Word Embedding（二）：连续词袋模型（CBOW, The Continuous Bag-of-Words Model）
· Word Embedding（三）：Skip-Gram模型
· Word Embedding（四）：Skip-Gram模型的数学原理
· Word Embedding（五）：基于哈夫曼树（Huffman Tree）的Hierarchical Softmax优化
· Word Embedding（六）：负采样（Negative Sampling）优化

我们首先看一个句子示例：

原句：今天下午2点钟搜索引擎组开组会。
分词：今天下午 2点钟搜索引擎组开组会。

现在对一句话的两种预测方式：

根据上下文预测目标值：对于每一个单词或词（统称为标识符），使用该标识符周围的标识符来预测当前标识符生成的概率。假设目标值为“2点钟”，我们可以使用“2点钟”的上文“今天、下午”和“2点钟”的下文“搜索、引擎、组”来生成或预测目标值。
由目标值预测上下文：对于每一个标识符，使用该标识符本身来预测生成其他词汇的概率。如使用“2点钟”来预测其上下文“今天、下午、搜索、引擎、组”中的每个词。

两种预测方法的共同限制条件是，对于相同的输入，输出每个标识符的概率之和为1。它们分别对应word2vec的两种模型，即连续词袋模型（CBOW, The Continuous Bag-of-Words Model）和Skip-Gram模型。根据上下文生成目标值时，使用CBOW模型；根据目标值生成上下文时，采用Skip-Gram模型。

CBOW模型包含三层：输入层、映射层和输出层。具体架构如下图所示：

CBOW模型中的 $w (t)$ 为目标词，在已知它的上下文 $w (t - n)$ 、 $\cdots$ 、 $w (t - 2)$ 、 $w (t - 1)$ 、 $w (t + 1)$ 、 $w (t + 2)$ 、 $\cdots$ 、 $w (t + n)$ 的前提下预测词 $w (t)$ 出现的概率，即 $p(w|\text{context}(w))$ 。目标函数为：
$L=\sum_{w\in C}\log p(w|\text{context}(w))$

CBOW模型其实就是根据某个词前后的若干词来预测该词，也可以看成是多分类。最朴素的想法就是直接使用Softmax函数来分别计算每个词对应的归一化的概率。但对于动辄十几万词汇量的场景，使用Softmax计算量太大，此时可以使用一种称为二分类组合形式的Hierarchical Softmax（输出层为一棵二叉树）来优化。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

von Neumann 您的赞赏是我创作最大的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。