ResNet阅读笔记

作用:保留深层神经网络可以提取更深层次的特征的优点的同时。避免梯度消失和梯度爆炸。

个人见解:为什么能保证每一层都能利用到?对于节点 hi h i ,bp传播时其后向两个节点 hi2 h i − 2 hi1 h i − 1 对于 hi h i 而言是等价的,根据归纳法推导, hi h i 的有效可保证 hi2 h i − 2 hi1 h i − 1 都有效。这里的有效是指不发生梯度消失或爆炸。

原作者想法:自动学习冗余层。最好是希望冗余层自动学到h(x)=x。然而学到恒等映射是很困难的,不如加个shortcut,然后使得h(x)=0;这样也相当于消除了冗余层。因为初始化时都偏向于0,同时小的权重。

数学层面解释:链式求导中变连乘连加

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值