来自博客:https://www.jianshu.com/p/ca6bee9eb888
设计初衷:残差结构是为了解决网络退化的问题提出的,梯度消失/爆炸已经通过 normalized initialization 等方式得到解决。
1. 学习结果对网络权重的波动变化更加敏感。
设 input :x , output :y , 待学习的 layer 参数为 w, 在 w 的改变增量一致时, H(x) 和 F(x) 分别改变 9% 和 100 %,
在引入残差结构后,网络权重的轻微变化就引起了教大的输出变化,所以,如果想要得到好的输出结构,必须小心的调整权重。
2.残差结果对数据的波动更加敏感。