自然语言处理（NLP）基础知识——序列生成模型中的学习问题（二）

ZreviaX

于 2024-04-12 14:00:00 发布

阅读量454

点赞数 9

分类专栏：自然语言处理基础知识文章标签：自然语言处理人工智能机器学习层次化Softmax 噪声对比估计重要性采样

本文链接：https://blog.csdn.net/WindGrin_/article/details/137619262

版权

自然语言处理基础知识专栏收录该内容

5 篇文章 0 订阅

订阅专栏

计算效率问题

计算效率问题

序列生成模型的输出层为词表中所有词的条件概率，需要Softmax归一化，当词表较大时，计算效率比较低

层次化Softmax

Hierarchical Softmax（H-Softmax）

首先考虑使用两层的树结构来组织词表：将词表中的词分成K组，并且每一个词只能属于一个分组，那么每组大小为 $\frac{|\mathcal{V}|}{K}$ ，假设词 $w$ 所属的组为 $c (w)$ ，则

$\begin{aligned} p(w \mid \tilde{h}) &=p(w, c(w) \mid \tilde{h}) \\ &=p(w \mid c(w), \tilde{h}) p(c(w) \mid \tilde{h}) \end{aligned}$
- 因此一个词的概率可以分解为两个概率 $\mid c(w), \tilde{h})$ 和 $\mid \tilde{h})$ 的乘积，它们可以分别利用神经网络来估计，这样计算Softmax函数时只需要分别做 $K$ 和 $\frac{|\mathcal{V}|}{K}$ 次求和，从而大大提高Softmax的计算速度
其次，还可以使用更深层的树结构来组织词表。例如采用二叉树来组织词表中的所有词，二叉树的叶子节点代表词表中的词，非叶子节点表示不同层次上的类别
- 如果我们将二叉树所有左连边标记为0，右连边标记为1。每一个词可以用根节点到它所在的叶子之间路径上的标记来进行编码。左图所示编码为
$v_{1}=00, \quad v_{2}=01, \quad v_{3}=10, \quad v_{4}=11$
- 假设词 $v$ 在二叉树上从根节点到其所在叶子节点的路径长度为 $M$ ，其编码可以表示一个位向量（bit vector）： $[b_1, \cdots, b_M]^T$ ，词 $v$ 的条件概率为
$\begin{aligned} P(v \mid \tilde{h}) &=p\left(b_{1}, \cdots, b_{M} \mid \tilde{h}\right) \\ &=\prod_{m=1}^{M} p\left(b_{m} \mid b_{1}, \cdots, b_{m-1}, \tilde{h}\right) \\ &=\prod_{m=1}^{M} p\left(b_{m} \mid b_{m-1}, \tilde{h}\right) \end{aligned}$
- 由于 $b_m \in {0,1}$ 为二值变量，可以将 $p\left(b_{m} \mid b_{m-1}, \tilde{h}\right)$ 看作二分类问题，使用Logistic回归来进行预测
- 转换编码方式可以利用WordNet或霍夫曼编码等

重要性采样

Importance Sampling

采用重要性采样来近似估计梯度，避免计算Softmax
目标函数关于 $\theta$ 的梯度为

$\begin{aligned} &\frac{\partial \log p_{\theta}\left(x_{t} \mid \tilde{h}_{t}\right)}{\partial \theta}=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\frac{\partial \log \left(\sum_{v} \exp \left(s\left(v, \tilde{h}_{t} ; \theta\right)\right)\right)}{\partial \theta} \\ &=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\frac{1}{\sum_{v} \exp \left(s\left(v, \tilde{h}_{t} ; \theta\right)\right)} \frac{\partial \sum_{v} \exp \left(s\left(v, \tilde{h}_{t} ; \theta\right)\right)}{\partial \theta} \\ &=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\sum_{v} \frac{1}{\sum_{w} \exp \left(s\left(w, \tilde{h}_{t} ; \theta\right)\right)} \frac{\partial \exp \left(s\left(v, \tilde{h}_{t} ; \theta\right)\right)}{\partial \theta} \\ &=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\sum_{v} \frac{\exp \left(s\left(v, \tilde{h}_{t} ; \theta\right)\right)}{\sum_{w} \exp \left(s\left(w, \tilde{h}_{t} ; \theta\right)\right)} \frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\sum_{v} p_{\theta}\left(v \mid \tilde{h}_{t}\right) \frac{\partial s\left(v, h_{t} ; \theta\right)}{\partial \theta} \\ &=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\mathbb{E}_{p_{\theta}\left(v \mid h_{t}\right)}\left[\frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta}\right] . \end{aligned}$
采用采样的方法来近似估计上式中的期望
- 重要性采样是用一个容易采样的提议分布 $q$ 来近似估计分布 $p$
$\begin{aligned} \mathbb{E}_{p_{\theta}\left(v \mid h_{t}\right)}\left[\frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta}\right] &=\sum_{v \in \mathcal{V}} p_{\theta}\left(v \mid \tilde{h}_{t}\right) \frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &=\sum_{v \in \mathcal{V}} q\left(v \mid \tilde{h}_{t}\right) \frac{p_{\theta}\left(v \mid \tilde{h}_{t}\right)}{q\left(v \mid \tilde{h}_{t}\right)} \frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &=\mathbb{E}_{q\left(v \mid \tilde{h}_{t}\right)}\left[\frac{p_{\theta}\left(v \mid \tilde{h}_{t}\right)}{q\left(v \mid \tilde{h}_{t}\right)} \frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta}\right] \end{aligned}$
原始分布 $p_{\theta}\left(v \mid \tilde{h}_{t}\right)$ 上的期望转换为提议分布 $q\left(v \mid \tilde{h}_{t}\right)$ 上的期望，提议分布需要尽可能与原始分布接近，并且从 $q\left(v \mid \tilde{h}_{t}\right)$ 采样的代价要比较小。在实际中，提议分布 $q\left(v \mid \tilde{h}_{t}\right)$ 可以采用N元模型的分布函数
- 根据分布 $q\left(v \mid \tilde{h}_{t}\right)$ 独立采样K个样本 $v_1, \cdots, v_K$ 来近似求解上式
$\mathbb{E}_{p_{\theta}\left(v \mid h_{t}\right)}\left[\frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta}\right] \approx \frac{1}{K} \sum_{k=1}^{K} \frac{p_{\theta}\left(v_{k} \mid h_{t}\right)}{q\left(v_{k} \mid \tilde{h}_{t}\right)} \frac{\partial s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}$
- 但在上式中可以发现，依然需要计算 $p_{\theta}\left(v \mid \tilde{h}_{t}\right)$ ，即
$p_{\theta}\left(v_{k} \mid \tilde{h}_{t}\right)=\frac{s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{Z\left(\tilde{h}_{t}\right)}$
其中 $Z\left(\tilde{h}_{t}\right)=\sum_{w} \exp \left(s\left(w, \tilde{h}_{t} ; \theta\right)\right)$ ，为了避免这种情况，也采用重要性采样来计算配分函数

$\begin{aligned} Z\left(\tilde{h}_{t}\right) &=\sum_{w} \exp \left(s\left(w, \tilde{h}_{t} ; \theta\right)\right) \\ &=\sum_{w} q\left(w \mid \tilde{h}_{t}\right) \frac{1}{q\left(w \mid \tilde{h}_{t}\right)} \exp \left(s\left(w, \tilde{h}_{t} ; \theta\right)\right) \\ &=\mathbb{F}_{q\left(w \mid \bar{h}_{t}\right)}\left[\frac{1}{q\left(w \mid \tilde{h}_{t}\right)} \exp \left(s\left(w, \tilde{h}_{t} ; \theta\right)\right)\right] \\ & \approx \frac{1}{K} \sum_{k=1}^{K} \frac{1}{q\left(v_{k} \mid \tilde{h}_{t}\right)} \exp \left(s\left(v_{k}, \tilde{h}_{t} ; \theta\right)\right) \\ &=\frac{1}{K} \sum_{k=1}^{K} \frac{\exp \left(s\left(v_{k}, \tilde{h}_{t} ; \theta\right)\right)}{q\left(v_{k} \mid \tilde{h}_{t}\right)} \\ &=\frac{1}{K} \sum_{k=1}^{K} r\left(v_{k}\right), \end{aligned}$
其中 $r\left(v_{k}\right)=\frac{\exp \left(s\left(v_{k}, \tilde{h}_{t} ; \theta\right)\right)}{q\left(v_{k} \mid \tilde{h}_{k}\right)}$ ，提议分布与前述提议分布可以设为一致

$\begin{aligned} &\mathbb{E}_{p_{\theta}\left(v \mid h_{t}\right)}\left[\frac{\partial s\left(v, \tilde{h}_{t} ; \theta\right)}{\partial \theta}\right] \approx \frac{1}{K} \sum_{k=1}^{K} \frac{p_{\theta}\left(v_{k} \mid \tilde{h}_{t}\right)}{q\left(v_{k} \mid \tilde{h}_{t}\right)} \frac{\partial s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &=\frac{1}{K} \sum_{k=1}^{K} \frac{\exp \left(s\left(v_{k}, \tilde{h}_{t} ; \theta\right)\right)}{Z\left(\tilde{h}_{t}\right)} \frac{1}{q\left(v_{k} \mid \tilde{h}_{t}\right)} \frac{\partial s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &=\frac{1}{K} \sum_{k=1}^{K} \frac{1}{Z\left(\tilde{h}_{t}\right)} r\left(v_{k}\right) \frac{\partial s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &\approx \sum_{k=1}^{K} \frac{r\left(v_{k}\right)}{\sum_{k=1}^{K} r\left(v_{k}\right)} \frac{\partial s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{\partial \theta} \\ &=\frac{1}{\sum_{k=1}^{K} r\left(v_{k}\right)} \sum_{k=1}^{K} r\left(v_{k}\right) \frac{\partial s\left(v_{k}, \bar{h}_{t} ; \theta\right)}{\partial \theta} . \end{aligned}$

$\frac{\partial \log p_{\theta}\left(x_{t} \mid \tilde{h}_{t}\right)}{\partial \theta}=\frac{\partial s\left(x_{t}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}-\frac{1}{\sum_{k=1}^{K} r\left(v_{k}\right)} \sum_{k=1}^{K} r\left(v_{k}\right) \frac{\partial s\left(v_{k}, \tilde{h}_{t} ; \theta\right)}{\partial \theta}$
- 重要性采样相当于采样了一个词表的子集，然后在这个子集上求梯度的期望。采样样本数量越大，近似越接近正确值。实际上K取100左右就可以以足够高精度对梯度作出估计。
- 重要性采样的提议分布若选取不合适，会造成梯度估计非常不稳定。提议分布经常使用一元模型的分布函数

噪声对比估计

Noise-Contrastive Estimation，NCE

噪声估计对比也是一种近似估计梯度的方法
假设有三个分布，第一个是需要建模的真实数据分布 $p_r(x)$ ；第二个是模型分布 $p_{\theta}(x)$ ，并期望调整模型参数 $\theta$ 使得 $p_{\theta}(x)$ 可以拟合真实数据分布 $p_r(x)$ ；第三个是噪声分布 $q (x)$ ，用于对比学习。给定一个样本 $x$ ，如果 $x$ 是从 $p_r(x)$ 中抽取的，则称为真实样本，如果 $x$ 是从 $q (x)$ 中抽取的，则称为噪声样本。为了判断样本 $x$ 是噪声样本还是真实样本，引入一个判别函数 $D$
噪声对比估计是通过调整模型 $p_{\theta}(x)$ 使得判别函数 $D$ 很容易分辨出样本 $x$ 来自哪个分布。令 $\in {1,0}$ 表示一个样本 $x$ 是真实样本或噪声样本，其条件概率为

$\begin{aligned} &p(x \mid y=1)=p_{\theta}(x) \\ &p(x \mid y=0)=q(x) \end{aligned}$
一般噪声样本的数量要比真实样本大很多．为了提高近似效率，我们近似假设噪声样本的数量是真实样本的 $K$ 倍，即 $y$ 的先验分布满足

$p (y = 0) = K p (y = 1)$
根据贝叶斯公式，样本𝑥来自于真实数据分布的后验概率为

$\begin{aligned} p(y=1 \mid x) &=\frac{p(x \mid y=1) p(y=1)}{p(x \mid y=1) p(y=1)+p(x \mid y=0) p(y=0)} \\ &=\frac{p_{\theta}(x) p(y=1)}{p_{\theta}(x) p(y=1)+q(x) k p(y=1)} \\ &=\frac{p_{\theta}(x)}{p_{\theta}(x)+K q(x)} \end{aligned}$
从真实分布 $p_r(x)$ 中抽取 $N$ 个样本 $x_1, \cdots, x_N$ ，将其类别设为 $y = 1$ ，然后从噪声分布中抽取 $K N$ 个样本 $x_1', \cdots, x_{KN}'$ ，将其类别设为 $y = 0$ 。噪声对比估计的目标是将真实样本和噪声样本区别开来，可以看作是一个二分类问题。噪声对比估计的损失函数为

$\mathcal{L}(\theta)=-\frac{1}{N(K+1)}\left(\sum_{n=1}^{N} \log p\left(y=1 \mid x_{n}\right)+\sum_{n=1}^{K N} \log p\left(y=0 \mid x_{n}^{\prime}\right)\right)$
通过不断采样真实样本和噪声样本，并用梯度下降法，可以学习参数 $\theta$ 使得 $p_{\theta}(x)$ 逼近于真实分布 $p_r(x)$
在噪声对比估计中的判别函数 $D$ 是通过贝叶斯公式计算得到
在计算序列模型的条件概率时，我们也可以利用噪声对比估计的思想来提高计算效率
- 噪声对比估计方法的一个特点是会促使未归一化分布exp自己学习到一个近似归一化的分布，所以就不需要再做softmax
基于采样的方法并不改变模型的结构，只是近似计算参数梯度．在训练时可以显著提高模型的训练速度，但是在测试阶段依然需要计算配分函数．而基于层次化Softmax的方法改变了模型的结构，在训练和测试时都可以加快计算速度