ResNet阅读笔记

最新推荐文章于 2024-06-21 09:37:35 发布

abugh

最新推荐文章于 2024-06-21 09:37:35 发布

阅读量181

点赞数

本文链接：https://blog.csdn.net/weixin_39354819/article/details/81809428

版权

作用:保留深层神经网络可以提取更深层次的特征的优点的同时。避免梯度消失和梯度爆炸。

个人见解：为什么能保证每一层都能利用到?对于节点 ${h_i}$ ,bp传播时其后向两个节点 ${h_{i-2}}$ ${h_{i-1}}$ 对于 ${h_i}$ 而言是等价的，根据归纳法推导, ${h_i}$ 的有效可保证 ${h_{i-2}}$ ${h_{i-1}}$ 都有效。这里的有效是指不发生梯度消失或爆炸。

原作者想法:自动学习冗余层。最好是希望冗余层自动学到h(x)=x。然而学到恒等映射是很困难的,不如加个shortcut,然后使得h(x)=0;这样也相当于消除了冗余层。因为初始化时都偏向于0,同时小的权重。

数学层面解释:链式求导中变连乘为连加。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

abugh

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ResNet阅读笔记

作用:保留深层神经网络可以提取更深层次的特征的优点的同时。避免梯度消失和梯度爆炸。个人见解：为什么能保证每一层都能利用到?对于节点hihi{h_i},bp传播时其后向两个节点hi−2hi−2{h_{i-2}}hi−1hi−1{h_{i-1}}对于hihi{h_i}而言是等价的，根据归纳法推导,hihi{h_i}的有效可保证hi−2hi−2{h_{i-2}}hi−1hi−1{h_{i-1}}都有...
复制链接

扫一扫