基于 Hierarchical Softmax 的 CBOW 模型

最新推荐文章于 2024-04-02 18:25:16 发布

Oliver_-_

最新推荐文章于 2024-04-02 18:25:16 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/qq_35732097/article/details/78903981

版权

关注：如何构造 $P(w\ |\ context(w))$ ？

1. 网络结构

样本： $(context(w),w)$ ，假设 $context(w)$ 由 $w$ 的前后各 $c$ 个词构成。
输入层：包含 $(context(w))$ 中的 $2c$ 个词向量:
$v (c o n t e x t (w) 1) ， v (c o n t e x t (w) 2) ， \dots ， v (c o n t e x t (w) 2 c) \in R m$ $v(context(w)_1)，v(context(w)_2)，\cdots ，v(context(w)_{2c}) \in \mathbb{R}^m$ 其中， $m$ 表示词向量的长度。
投影层：将输入层的 $2c$ 个向量做累加求和，即：
$x w = \sum i = 1 2 c v (c o n t e x t (w) i) \in R m$ $\boldsymbol{x_w} = \sum_{i=1}^{2c} \boldsymbol{v}(context(w)_i) \in \mathbb{R}^m$
输出层：对应一棵 $Huffman$ 树，它以语料中出现过的词作为叶结点，叶结点的权重为词在语料中出现的次数。叶结点共 $N = |D|$ 个，非叶子结点共 $N-1$ 个。

2. 构造 $P(w\ |\ context(w))$

记号：
- $p^w$ ：从根节点到叶子结点 $w$ 的路径。
- $l^w$ ：路径 $p^w$ 中包含的结点个数。
- $p^w_1，p^w_2，\cdots ，p^w_{l^w}$ ：表示路径 $p^w$ 的各个结点。
- $d^w_2，d^w_3，\cdots ，d^w_{l^w} \in \{ 0，1\}$ ：词语 $w$ 对应的 $Huffman$ 编码，也是 $p^w_2，p^w_3，\cdots ，p^w_{l^w}$ 对应的编码。
- $\theta ^w_1，\theta ^w_2，\cdots ，\theta ^w_{l^w-1} \in \mathbb{R}^m$ ：路径 $p^w$ 中非叶子结点对应的向量。
例子：
- $p^w$ 为红色路径， $l^w = 5$ 。
- $p^w_1=38,\ p^w_2=23,\ p^w_3=9,\ p^w_4=4,\ p^w_5=3$
- $\qquad \quad \ \ ,\ d^w_2=1,\ d^w_3=0,\ d^w_4=0,\ d^w_5=1$
如何使用 $\boldsymbol{x}_w$ 和 $Huffman$ 树定义 $P(w\ | \ context(w))$ ?
- 从根节点出发，到达“足球”叶子结点，共有四个分支，每次分支视为进行了一次二分类。
- $word2vec$ 约定： $Huffman$ 编码为 0 的结点为正类，编码为 1 的结点为负类，即 $L a b e l (p w i) = 1 - d w i, i = 2, 3, \dots, l w$ $Label(p^w_i)=1-d^w_i,i=2,3,\cdots,l^w$ 在 $Fuffman$ 树中，左边为负类，右边为正类。
- 使用逻辑回归进行二分类，一个结点被分为正类的概率为 $σ (x T w θ) = 1 1 + e - x T w θ$ $\sigma(\boldsymbol{x}_w^T\boldsymbol{\theta}) = \frac{1}{1+e^{-\boldsymbol{x}_w^T\boldsymbol{\theta} }}$
  被分类为负类的概率为 $1 - σ (x T w θ)$ $1-\sigma(\boldsymbol{x}_w^T\boldsymbol{\theta} )$
  上式中的 $\theta$ 即为每个非叶子结点的 $\boldsymbol{\theta _i^w}$ 。
例子：
$\qquad$ 第一次分类： $P(d^w_2|x_w,\theta^w_1) = 1 - \sigma(x_w^T\theta_1^w)$
$\qquad$ 第二次分类： $P(d^w_3|x_w,\theta^w_2) = \sigma(x_w^T\theta_2^w)$
$\qquad$ 第三次分类： $P(d^w_4|x_w,\theta^w_3) = \sigma(x_w^T\theta_3^w)$
$\qquad$ 第四次分类： $P(d^w_5|x_w,\theta^w_4) = 1 - \sigma(x_w^T\theta_4^w)$

P (足 球 | c o n t e x t (足 球)) = \prod j = 2 5 P (d w j | x w, θ w j - 1)

$P(足球\ | \ context(足球)) = \prod_{j=2}^5P(d^w_j\ | \ x_w, \theta_{j-1}^w)$

基本思路：对于词典 $D$ 中的任何一个词 $w$ ， $Huffman$ 树必定唯一存在一条从根节点到对应叶子节点的路径 $p^w$ ，路径上存在 $l_w-1$ 个分支，把每个分支看成一次二分类，每次分类产生一个概率，把这些概率连乘即为所需的 $P(w\ |\ context(w))$ ，即
$P (w | c o n t e x t (w)) = \prod j = 2 l w P (d w j | x w, θ w j - 1)$ $P(w\ |\ context(w)) = \prod_{j=2}^{l^w} P(d^w_j\ | \ x_w, \theta_{j-1}^w)$ 其中
$P (d w j | x w, θ w j - 1) = {σ (x T w θ w j - 1), 1 - σ (x T w θ w j - 1), d w j = 0 （正类） d w j = 1 （负类）$ $P(d^w_j\ | \ x_w, \theta_{j-1}^w) = \begin{cases} \sigma(x_w^T\theta_{j-1}^w) ,&d^w_j=0（正类） \\ 1-\sigma(x_w^T\theta_{j-1}^w) , &d^w_j=1（负类） \end{cases}$ 或者
$P (d w j | x w, θ w j - 1) = [σ (x T w θ w j - 1)] 1 - d w j \times [1 - σ (x T w θ w j - 1)] d w j, d w j \in {0, 1}$ $P(d^w_j\ | \ x_w, \theta_{j-1}^w) = [ \sigma(x_w^T\theta_{j-1}^w) ] ^{1-d^w_j} \times [1- \sigma(x_w^T\theta_{j-1}^w) ]^{d^w_j} , d^w_j\in \{0,1\}$
此处不需要进行归一化，输出的值本身具有概率意义。

3. 计算梯度

目标函数：
$L = \sum_{w\in C} logP(w|context(w))$

$\quad = \sum_{w\in C} log \ \prod_{j=2}^{l^w} { [ \sigma(x_w^T\theta_{j-1}^w) ] ^{1-d^w_j} \times [1- \sigma(x_w^T\theta_{j-1}^w) ]^{d^w_j} }$

$\quad = \sum_{w\in C} \sum_{j=2}^{l^w} { ({1-d^w_j}) \cdot log[\sigma(x_w^T\theta_{j-1}^w) ] \ + \ d^w_j \cdot log [1-\sigma(x_w^T\theta_{j-1}^w)] }$

$\quad = \sum_{w\in C} \sum_{j=2}^{l^w} L(w,j)$
$\theta$ 参数（随机梯度上升）：
- 每个结点的目标函数对各自结点的 $\theta$ 参数求导：
  $L (w, j) = (1 - d w j) \cdot l o g [σ (x T w θ w j - 1)] + d w j \cdot l o g [1 - σ (x T w θ w j - 1)]$ $L(w,j) = ({1-d^w_j}) \cdot log[\sigma(x_w^T\theta_{j-1}^w) ]\ + \ d^w_j \cdot log [1-\sigma(x_w^T\theta_{j-1}^w)]$
  $δ L ( w , j ) δ θ w j - 1 = (1 - d w j) \cdot [1 - σ (x T w θ w j - 1)] x w - d w j \cdot σ (x T w θ w j - 1) x w = [1 - d w j - σ (x T w θ w j - 1)] \cdot x w$ $\frac{\delta{L(w,j)}}{\delta \boldsymbol{\theta}_{j-1}^w} = ({1-d^w_j}) \cdot [1- \sigma(x_w^T\theta_{j-1}^w) ]x_w -d^w_j \cdot \sigma(x_w^T\theta_{j-1}^w) x_w \\ = [1-d^w_j- \sigma(x_w^T\theta_{j-1}^w) ]\cdot \boldsymbol{x}_w$
- 目标函数对 $\theta$ 参数求导：
  $δ L δ θ w j - 1 = δ δ θ w j - 1 \sum w \in C \sum p = 2 l w L (w, p)$ $\frac{\delta L}{\delta \boldsymbol{\theta}_{j-1}^w} = \frac{\delta}{\delta \boldsymbol{\theta}_{j-1}^w} \sum_{w\in C} \sum_{p=2}^{l^w} L(w,p)$
  $= δ δ θ w j - 1 \sum w \in C L (w, j)$ $= \frac{\delta}{\delta \boldsymbol{\theta}_{j-1}^w} \sum_{w\in C} L(w,j)$
- 每次更新使用一个点：
  $θ w j - 1 : = θ w j - 1 + η \cdot [1 - d w j - σ (x T w θ w j - 1)] \cdot x w$ $\boldsymbol{\theta}^w_{j-1} := \boldsymbol{\theta}^w_{j-1} + \eta \cdot [1-d^w_j- \sigma(x_w^T \boldsymbol{\theta}_{j-1}^w) ]\cdot \boldsymbol{x}_w$
xw 参数：
- $δ L ( w , j ) δ x w = [1 - d w j - σ (x T w θ w j - 1)] \cdot θ w j - 1 (θ w j - 1 和 x w 是对称的)$ $\frac{\delta{L(w,j)}}{\delta\ \boldsymbol{x}_w} = [1-d^w_j- \sigma(x_w^T\theta_{j-1}^w) ]\cdot \boldsymbol{\theta}^w_{j-1} \\ (\boldsymbol{\theta}^w_{j-1}和\boldsymbol{x}_w是对称的)$
- $δ L δ x w = δ δ x w \sum w \in C \sum p = 2 l w L (w, p) = \sum w \in C \sum j = 2 l w δ δ x w L (w, j)$ $\frac{\delta L}{\delta \boldsymbol{x}_w} = \frac{\delta}{\delta \boldsymbol{x}_w} \sum_{w\in C} \sum_{p=2}^{l^w} L(w,p) \\ = \sum_{w\in C} \sum_{j=2}^{l^w} \frac{\delta}{\delta \boldsymbol{x}_w} L(w,j)$
更新词向量 $\boldsymbol{v}(\hat{w})$
$\quad \ \$ 我们的目标是求词典中各个词的词向量， $x_w$ 表示的是 $Context(w)$ 中各词的词向量的累加： $x w = \sum i = 1 2 c C o n t e x t (w) i = \sum w^, w^\in C o n t e x t (w)$ $x_w = \sum_{i=1}^{2c} Context(w)_i = \sum\hat{w}, \ \ \hat{w}\in Context(w)$
所以，目标函数对词向量的导数为：
$δ L δ v ( w ^ ) = δ L δ x w \times δ x w δ v ( w ^ ) = δ L δ x w$ $\frac{\delta L}{\delta\boldsymbol{v}(\hat{w})} = \frac{\delta L}{\delta \boldsymbol{x}_w} \times \frac{\delta \boldsymbol{x}_w}{\delta\boldsymbol{v}(\hat{w})} = \frac{\delta L}{\delta \boldsymbol{x}_w}$
随机梯度上升：
$v (w^) : = v (w^) + η \cdot \sum j = 2 l w δ δ x w L (w, j), w^\in C o n t e x t (w)$ $\boldsymbol{v}(\hat{w}) := \boldsymbol{v}(\hat{w}) + \eta \cdot \sum_{j=2}^{l^w} \frac{\delta}{\delta \boldsymbol{x}_w} L(w,j) ,\ \hat{w}\in Context(w)$

Oliver_-_

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
基于 Hierarchical Softmax 的 CBOW 模型

基于 Hierarchical Softmax 的 CBOW 模型关注：如何构造 P(w | context(w))P(w\ |\ context(w)) ？
复制链接

扫一扫