Embedding层压缩方法：Adaptive input representations for neural language modeling

最新推荐文章于 2023-11-30 20:50:06 发布

菜小白—NLP

最新推荐文章于 2023-11-30 20:50:06 发布

阅读量1.6k

点赞数 4

分类专栏： NLP 文章标签：人工智能

本文链接：https://blog.csdn.net/ACM_hades/article/details/104541116

版权

40 篇文章 7 订阅

订阅专栏

参考链接

Adaptive Input Representation受Adaptive softmax模型启示而得出来的。
首先我们将词汇表按词频降序排列，然后将其划分为 $n$ 个子集： $V_1∪V_2…∪V_n$ 且 $V_i∩V_j=∅ (i≠j)$ ,这样最高频词包含在 $V_1$ ,最低频词包含在 $V_n$ 中。 $V_1$ 被称为head，其他自己被成为tail。
每个子集中词embedding的维度设置：
- $V_1$ 维度为 $d$
- $V_n$ 的维度为 $\frac{d}{k^{(n-1)}}$
- $k$ 是一个参数，一般设置为4；由上面公式可是各子集的维度是随词频递减的
再为每个子集设置一个线性映射： $W_1∈R^{d×d},…,W_n∈R^{\frac{d}{k^{(n-1)}}}$ ，目的是最后统一整个embedding层的输出维度为 $d$ 。如下图所示：
如上图所示，先将输入句子中词划分到其相应的 $V_i$ 中去，然后分别进行embedding和线性映射，最后再按源句子中的顺序进行拼接相应的词embedding，得到整个embedding层的输出

如果输出层为使用adaptive softmax，并且使用与输入层adaptive input layer相同的参数： $V 、 d 、 k$ ;那么我们就可以进行输入层与输入层的参数共享。
adaptive softmax模型图如下所示：
权值共享的方法：
- adaptive softmax根节点维度为 $V_1 |+n-1$ ，所以我们将 $V_1$ 的embedding矩阵 $E_1∈R^{|V_1 |×d}$ 并上一个从新定义的不共享的矩阵 $B∈R^{(n-1)×d}$ ，这样就可以得到adaptive softmax根节点 $T=[E_1;B]∈R^{(|V_1 |+n-1)×d}$ 。
- 对于adaptive softmax的下面叶节点我们可以直接共享adaptive input层的相应子集的embedding矩阵和映射矩阵，比如，adaptive softmax的第 $i - 1$ 个叶节点它对应的词汇表子集为 $V_i$ ,则该页节点存储的就是adaptive input中的映射矩阵 $W_i$ 和对应的embedding矩阵 $E_i$ 。
adaptive softmax输出预测过程：
- 首先将隐藏层状态向量 $h∈R^d$ 与根节点矩阵 $T$ 相乘；
- 如果输出的词在集合 $V_1$ 中则直接预测。
- 如预测的词在 $V_i (i≠1)$ ,则再将隐藏层状态向量 $h$ 与 $W_i$ 相乘得到的结果再与 $E_i$ 相乘得到最终的预测词。
由上面的过程可以看出来， $V_1$ 映射矩阵 $W_1$ 是不需要共享。
当然有些情况也可以不共享 $V_i (i≠1)$ 的映射矩阵 $W_i$ 而重新定义也该相同维度的矩阵代替。