文献阅读：DeepNet: Scaling Transformers to 1,000 Layers

最新推荐文章于 2024-08-10 08:38:37 发布

Espresso Macchiato

最新推荐文章于 2024-08-10 08:38:37 发布

阅读量2.7k

点赞数

分类专栏：文献阅读文章标签： DeepNet Transformer Robust Training DeepNorm 参数初始化

本文链接：https://blog.csdn.net/codename_cys/article/details/124083295

版权

文献阅读专栏收录该内容

55 篇文章

订阅专栏

文献阅读：DeepNet: Scaling Transformers to 1,000 Layers

文献链接：https://arxiv.org/abs/2203.00555

1. 文章简介

这篇文章是我司前阵子发布的一篇对于transformer的优化文章，一作还是我室友兼师弟，也是挺有意思的。

这篇文章针对了当前经典的transformer模型在深度很深的情况下训练往往不稳定，容易发散的现象进行了一定的研究，对这个现象的原因进行了比较深入的分析，并基于此提出了一种deepnorm的layernorm方法，从而在数学上可以确保训练的稳定性。

基于此，文中直接把transformer的最大训练层数推到了1000层，视觉效果上是真的厉害。

在这里插入图片描述

2. 核心技术点

1. DeepNet整体结构

文中主要的模型架构，即DeepNet的模型结构倒是相对简单，和传统的transformer其实只有一点微小的变动，具体包含以下两点：

调整参数初始化
调整残差设计

文中直接给出了具体的函数伪代码以及超参建议如下：

在这里插入图片描述

下面，我们具体考察一下其具体的假设以及有效性分析。

2. 参数初始化考察

关于参数初始化为什么可以优化transformer训练稳定性的问题，我本人是了解的不太多，不过看文中的内容似乎已经有了几个对应的研究工作，比如以下三个：

而在这篇文章当中，作者同样给出了一个可行的参数初始化优化方案，具体而言就是在ffn和value的参数初始化上调整正态分布的参数 $N(\mu, \sigma^2)$ 的标准差 $\sigma$ ，将其调整为gain为超参数 $\beta$ 的Glorot初始化。

而关于Glorot初始化的定义，可以直接从torch的官网获取其定义。

综上，我们可以得到最终的参数初始化分布为：

$\sim N(0, \beta^2 \times \frac{2}{fan_{in} + fan_{out}})$

其中， $fan_{in}, fan_{out}$ 为参数矩阵的长和宽，具体公式为：
$\left\{ \begin{aligned} fan_{in} &= d_0 \times (\Pi_{i=2}d_i) \\ fan_{out} &= d_1 \times (\Pi_{i=2}d_i) \end{aligned} \right.$

特别的，对于self-attention，其初始化参数参数分布就是 $\frac{\beta^2}{d})$ ，其中 $d$ 就是模型的维度。

而关于超参数 $\beta$ 的选择，文中给出的定义为:

$\beta = \frac{1}{N-l}$

其中， $N$ 表示transformer的总的层数，而 $l = 0, . . ., N - 1$ 表示对应的transformer的层数。

显然，越是下层， $\sigma^2$ 越小，参数初始化约接近于0。

而关于不同的初始化之下模型梯度随层数的变化，文中给出了实验结果图如下：

在这里插入图片描述

从图3-b可以看出，调整了初始化之后，模型会在顶层获得更大的梯度，但是从图3-a可以看到，虽然其梯度绝对值会变大，但是随着梯度的回传，下层的梯度不会发生爆炸，而是会逐渐收敛的。

事实上，同样的结论可以从图4-d中看出，可以看到，如果不使用Post-LN-init，那么模型的梯度随着反向传播的深入会出现梯度弥散，虽然warmup可以一定程度抑制上述现象的发生，但是随着层数的增加依然无法避免其出现。

具体表现到训练上面，就是模型的顶层会快速地收敛到一个local minimum，而下层的参数很难得到一个很好的训练，这个结果从图3-c以及图4-a中都能够得到印证。

更进一步的，如果打印出layernorm的输入随着训练步数的变化（图4-b以及图4-c）可以看到Post-LN-init更可以令其输入保持在一个相对比较小的值，而原始的初始化方法则更倾向于收敛到一个比较大的输入上面。

而根据文献On Layer Normalization in the Transformer Architecture，layer normalize的梯度大小与其输入模长的反比是在一个量级的（ $||\frac{\partial LN(x)}{\partial x}|| = O(\frac{\sqrt{d}}{||x||})$ ），因此输入的模长越大，梯度也就会越小。

这个结论印证了上图4-d中的结论。

综上，我们最终得到结论：

传统的transformer参数初始化下的模型梯度会随着的深度的增加快速地发生梯度弥散，从而导致下层无法得到很好的训练，模型陷入到一个local minimum当中，导致效果变差；
通过warmup或者调整参数初始化可以优化这个问题，文中提出的Post-LN-init就是一个可行的参数初始化优化方案。