Transformer - Skip connection理解
skip connection是一种广泛应用于提高深度神经网络性能和收敛性的技术,它通过神经网络层传播的线性分量,缓解了非线性变化难以收敛的情况。在Transformer中,patch如果较小,就会出现spurious gradient爆炸或消失【虚假梯度爆炸-很多假的梯度】。
现有研究Skip connection的有效性和scale factors,发现可以通过normalization来解决,特别是layer normalization,进一步得出通过递归skip connection和layer normalization来自适应地调整输入scale,这大大提高了性能,并且在包括机器翻译和图像分类数据集在内的各种任务中具有很好的泛化效果。但是,从另一个角度来看,它也是可以看作是输入和输出之间的调制机制,输入按预定义值1进行缩放。
Transformer中,skip connection现有两种存在方式:
1.Transformer内部的skip connection -层内连接 归一化,类似ResNet的残差连接
2.Transformer外部的skip connection -Encoder和Decoder之间的跨层连接-跨网络连接
【讨论正误】
skip connection保留浅层局部的低级特征【保护局部特征】,来增强深层的高级特征,进而避免虚假梯度爆炸和梯度消失问题。【浅层-低级-局部特征 || 深层-高级-全局特征】
英:Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
中:Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
极品Trick | 在ResNet与Transformer均适用的Skip Connection解读-技术圈 (proginn.com)