假设第 层,我们想要的映射为 ,但此时我们不选择直接优化 ,而是构造,选择间接去优化,其中表达式为:
最后在网络第 输入前,将 加上 即可得到 ,也就是原来想要的输出,也是第 层的输入,其表达式为:
式子中的,被称为两层网络之间的残差
那么为什么残差网络可以解决网络退化的问题?
现在,假设任意更深层的输入为 ,任意浅层的输入为 ,那么根据上述的规律,可以写出二者之间的递推关系式:
也就是说任意深层的输入,可以写成任意浅层的输入加上两层网络之间的残差和
那么,与普通的神经网络相比,在前向传播的过程中,残差网络的跳跃结构使得任意浅层的信息更容易传播到深层
同时损失函数关于深层的梯度也可以直接传播到任意浅层,说明在反向误差传递的过程里,也不会出现梯度消失的问题
残差网络这样的属性,使其无论是前向传播,还是反向传播,都可以将信号传播到任意一层,所以可以解决网络退化的问题