作用
:保留深层神经网络可以提取更深层次的特征的优点的同时。避免梯度消失和梯度爆炸。
个人见解:为什么能保证每一层都能利用到?对于节点 hi h i ,bp传播时其后向两个节点 hi−2 h i − 2 hi−1 h i − 1 对于 hi h i 而言是等价的,根据归纳法推导, hi h i 的有效可保证 hi−2 h i − 2 hi−1 h i − 1 都有效。这里的有效是指不发生梯度消失或爆炸。
原作者想法:自动学习冗余层。最好是希望冗余层自动学到h(x)=x。然而学到恒等映射是很困难的,不如加个shortcut,然后使得h(x)=0;这样也相当于消除了冗余层。因为初始化时都偏向于0,同时小的权重。
数学层面解释:链式求导中变连乘
为连加
。