残差结构的理解

首先我们想一下为什么深度学习的效果很好?
我认为最大的原因就是它可以很轻易的实现非常高复杂度的模型,而在传统上想要实现高复杂度并不是很简单的。
传统方法:

  1. 特征变换(其实手段也很有限,因为实用的核函数种类很少)
  2. 非线性模型,也决策树为代表的一些模型,adaboost,gbdt,rf等。

这些模型想要提升复杂度的话总是有一些受限,而深度学习则不存在这个问题,如果 Ein,Eout E i n , E o u t 很接近的话那我们就可以很简单的增加模型复杂度就行了,不管是加深宽度还是深度,解决了复杂度的这个问题,我们只需要构造一个可训练的合适复杂度的模型即可。

但是这里面加深深度会有一些问题是深度会导致偏导数的连乘,可能会造成梯度消失或爆炸,梯度消失会更严重一些,因为如果梯度消失的话就像等于没增加模型复杂度。

而使用残差结构后,就是为模型增加了一个shortcut,这种shortcut可以动态的调整模型的复杂度,类似于LSTM中的门结构,只不过这个实现更简单。

所以正如CNN可以自动学习filter,LSTM可以自动学习update或forget,深度+残差连接的模型就相当于可以根据任务自动调节(微调)自身复杂度的模型 a2=a

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值