文本处理——词向量

最新推荐文章于 2024-06-19 17:56:13 发布

Shingle_

最新推荐文章于 2024-06-19 17:56:13 发布

阅读量3.7k

点赞数 2

分类专栏：自然语言处理文章标签： Word2Vec negative sampling hierarchical softmax Glove FastText

本文链接：https://blog.csdn.net/Shingle_/article/details/82529416

版权

Word2Vec

Google
这里写图片描述

连续词袋模型（continuous bag of words, CBOW)

连续词袋模型用一个中心词在文本序列前后的背景词来预测该中心词

\prod t = 1 T P (w (t) ∣ w (t - m), \dots, w (t - 1), w (t + 1), \dots, w (t + m)) .

$\prod_{t=1}^T \mathbb{P}(w^{(t)} \mid w^{(t-m)}, \ldots, w^{(t-1)}, w^{(t+1)}, \ldots, w^{(t+m)}).$
上式的最大似然估计与最小化以下损失函数等价：

- \sum t = 1 T log P (w (t) ∣ w (t - m), \dots, w (t - 1), w (t + 1), \dots, w (t + m)) .

$-\sum_{t=1}^T \text{log} \mathbb{P}(w^{(t)} \mid w^{(t-m)}, \ldots, w^{(t-1)}, w^{(t+1)}, \ldots, w^{(t+m)}).$
设中心词 wc 在词典中索引为 c，背景词

wo1,…,wo2m w o 1 , … , w o 2 m $w_{o_1}, \ldots, w_{o_{2m}}$ 在词典中索引为

o1,…,o2m o 1 , … , o 2 m $o_1, \ldots, o_{2m}$ ，损失函数中的给定背景词生成中心词的概率可以通过 softmax 函数定义为

P (w c ∣ w o 1, \dots, w o 2 m) = exp ( u ⊤ c ( v o 1 + \dots + v o 2 m ) / ( 2 m ) ) \sum i \in V exp ( u ⊤ i ( v o 1 + \dots + v o 2 m ) / ( 2 m ) ) .

$\mathbb{P}(w_c \mid w_{o_1}, \ldots, w_{o_{2m}}) = \frac{\text{exp}\left(\mathbf{u}_c^\top (\mathbf{v}_{o_1} + \ldots + \mathbf{v}_{o_{2m}}) /(2m) \right)}{ \sum_{i \in \mathcal{V}} \text{exp}\left(\mathbf{u}_i^\top (\mathbf{v}_{o_1} + \ldots + \mathbf{v}_{o_{2m}}) /(2m) \right)}.$

\partial log P ( w c ∣ w o 1 , \dots , w o 2 m ) \partial v o i = 1 2 m (u c - \sum j \in V exp ( u ⊤ j v c ) \sum i \in V exp ( u ⊤ i v c ) u j) .

$\frac{\partial \text{log} \mathbb{P}(w_c \mid w_{o_1}, \ldots, w_{o_{2m}})}{\partial \mathbf{v}_{o_i}} = \frac{1}{2m} \left(\mathbf{u}_c - \sum_{j \in \mathcal{V}} \frac{\text{exp}(\mathbf{u}_j^\top \mathbf{v}_c)}{ \sum_{i \in \mathcal{V}} \text{exp}(\mathbf{u}_i^\top \mathbf{v}_c)} \mathbf{u}_j \right).$

\partial log P ( w c ∣ w o 1 , \dots , w o 2 m ) \partial v o i = 1 2 m (u c - \sum j \in V P (w j ∣ w c) u j) .

训练结束后，对于词典中的任一索引为 i 的词，我们均得到该词作为背景词和中心词的两组词向量 v_i 和 u_i。在自然语言处理应用中，我们会使用连续词袋模型的背景词向量。

跳字模型（Skip-gram）

在跳字模型中，我们用一个词来预测它在文本序列周围的词。

假设词典索引集 $V$ 的大小为

最低0.47元/天解锁文章

Shingle_

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
文本处理——词向量

Word2VecGoogle连续词袋模型（continuous bag of words, CBOW)连续词袋模型用一个中心词在文本序列前后的背景词来预测该中心词∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).\prod_{t=1}^T \...
复制链接

扫一扫

专栏目录