Transformer - Skip connection-解读

Transformer - Skip connection理解

skip connection是一种广泛应用于提高深度神经网络性能和收敛性的技术,它通过神经网络层传播的线性分量,缓解了非线性变化难以收敛的情况。在Transformer中,patch如果较小,就会出现spurious gradient爆炸或消失【虚假梯度爆炸-很多假的梯度】。
现有研究Skip connection的有效性和scale factors,发现可以通过normalization来解决,特别是layer normalization,进一步得出通过递归skip connection和layer normalization来自适应地调整输入scale,这大大提高了性能,并且在包括机器翻译和图像分类数据集在内的各种任务中具有很好的泛化效果。但是,从另一个角度来看,它也是可以看作是输入和输出之间的调制机制,输入按预定义值1进行缩放。

Transformer中,skip connection现有两种存在方式:
1.Transformer内部的skip connection -层内连接 归一化,类似ResNet的残差连接
内部skip connection
2.Transformer外部的skip connection -Encoder和Decoder之间的跨层连接-跨网络连接
GLPDepth 外部skip connection

【讨论正误】
skip connection保留浅层局部的低级特征【保护局部特征】,来增强深层的高级特征,进而避免虚假梯度爆炸和梯度消失问题。【浅层-低级-局部特征 || 深层-高级-全局特征】

英:Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
中:Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
极品Trick | 在ResNet与Transformer均适用的Skip Connection解读-技术圈 (proginn.com)

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值