论文精读（1）-- Lipschitz constrained parameter initialization for deep transformers

最新推荐文章于 2022-12-10 23:59:27 发布

QingerBig

最新推荐文章于 2022-12-10 23:59:27 发布

阅读量381

点赞数 1

分类专栏： Deep NetWork paper 参数初始化论文文章标签：机器翻译 nlp

本文链接：https://blog.csdn.net/QingerBig/article/details/108734311

版权

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

概览

改变residual connection与layer normalization的位置可以缓解深层Transformer难以优化的问题。
作者比较了计算顺序（residual connection与layer normalization的位置）上的细微差别，并提出了一种参数初始化方法，该方法利用Lipschitz约束对Transformer的参数进行初始化。
即使不调整原来的计算顺序，应用Lipschitz约束进行参数初始化，也可以使得模型正常收敛。

多层网络可以增强模型的容量，但同时会增加训练的难度。
即使应用残差网络和层正则化技术，深层的Transformer依然难以训练。（文中作者也提出了大量的解决的论文，比如：Transparent Attention、DLCL等等）

这篇论文的主要解决的问题如下：

offical implementation（V2）：
在这里插入图片描述
published（original paper V1）：

对于V1和V2的传递过程进行分析：

我们可以发现，V1相对于V2，在其残差网络的输出上多了一个权重 $\omega$ / $\sigma$ 。

而由试验结果可知，V2对于深层网络没有收敛问题。

作者认为V1的收敛问题可能是由于紧跟在残差网络后的层正则化显著的减少了残差网络对后面的影响，在这里插入图片描述
V1的输出受权重 $\omega$ / $\sigma$ 的影响，当其小于1时，深层的网络难以收敛。

问题：如果缩小残差网络的输出可能使深层的Transformer无法收敛，那么如果 $\omega$ / $\sigma$ >1呢？
那么很自然的，如果 $\omega$ /被初始化为1，那么 $\sigma$ 应属于(0,1]，故在这里插入图片描述

这样使得 $\omega$ / $\sigma$ 至少等于1。

为实现这个目标，可以通过限制在这里插入图片描述

在[a,b]之间即可，下面给出证明：
在这里插入图片描述
其中
即为P(x)的期望，故x-E(x)<b-a，所以：

可得只与区间长度相关，而与具体的分布无关。
则可利用Lipschitz条件，当K小于等于1时，|F(x)-F(y)| < k|x-y|，设F为参数在[a,b]上的分布函数，则|F(x)-F(y)| < k|b-a|

关注

专栏目录