该问题归类到Transformer架构问题集——残差与归一化——残差连接。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在深度学习应用日益广泛的今天,模型鲁棒性已成为衡量其性能优劣的关键指标。鲁棒性强的模型能够在面对数据噪声、对抗样本以及分布外数据等复杂情况时,依然保持稳定且良好的性能表现。残差连接作为深度神经网络的重要结构创新,凭借缓解梯度消失、支持网络深度拓展等优势,在各类先进模型架构中广泛应用。然而,相较于其对模型训练效率和表达能力的研究,残差连接对模型鲁棒性的影响尚未得到全面深入的探讨。本研究基于梯度噪声注入实验,系统分析残差连接对模型鲁棒性的影响机制,旨在为优化模型结构、提升模型实际应用能力提供理论依据与实践指导。
2. 理论基础
2.1 残差连接原理
残差连接以 的形式改变了传统神经网络的信息传递方式。在该结构中,x 为输入数据,F(x) 是子层对 x 的变换输出。其核心优势在于构建了一条梯度传播的 “捷径”。反向传播时,根据链式法则,损失函数 L 关于输入 x 的梯度
。即便子层 F(x) 的梯度