x是初始的输入(也可能是上一层的输入),红框里面是两层神经网络,假设这两层网络的输出为F(x),将F(x)与x相加作为下一层网络的输入。这就是残差网络。
为什么残差结构有用呢?
比如这张图,A对应着上一张图的x,B和C是两层神经网络,D是下一层网络。
注意到最后的梯度中红框中的公式为:1+…,即使后面的梯度为0,整个梯度也不会消失,因此很好地解决了梯度消失的问题,利用残差网络可以构建深层的网络而不担心因为梯度累乘带来的梯度消失问题。
05-10
3034
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountWhite.png)