残差结构的理解

最新推荐文章于 2024-06-05 20:09:14 发布

PKU_Jade

最新推荐文章于 2024-06-05 20:09:14 发布

阅读量8.9k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PKU_Jade/article/details/80971738

版权

首先我们想一下为什么深度学习的效果很好？
我认为最大的原因就是它可以很轻易的实现非常高复杂度的模型，而在传统上想要实现高复杂度并不是很简单的。
传统方法：

特征变换（其实手段也很有限，因为实用的核函数种类很少）
非线性模型，也决策树为代表的一些模型，adaboost，gbdt，rf等。

这些模型想要提升复杂度的话总是有一些受限，而深度学习则不存在这个问题，如果 $E_{in}, E_{out}$ 很接近的话那我们就可以很简单的增加模型复杂度就行了，不管是加深宽度还是深度，解决了复杂度的这个问题，我们只需要构造一个可训练的合适复杂度的模型即可。

但是这里面加深深度会有一些问题是深度会导致偏导数的连乘，可能会造成梯度消失或爆炸，梯度消失会更严重一些，因为如果梯度消失的话就像等于没增加模型复杂度。

而使用残差结构后，就是为模型增加了一个shortcut，这种shortcut可以动态的调整模型的复杂度，类似于LSTM中的门结构，只不过这个实现更简单。

所以正如CNN可以自动学习filter，LSTM可以自动学习update或forget，深度+残差连接的模型就相当于可以根据任务自动调节（微调）自身复杂度的模型 a2=a

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
残差结构的理解

首先我们想一下为什么深度学习的效果很好？我认为最大的原因就是它可以很轻易的实现非常高复杂度的模型，而在传统上想要实现高复杂度并不是很简单的。传统方法：特征变换（其实手段也很有限，因为实用的核函数种类很少）非线性模型，也决策树为代表的一些模型，adaboost，gbdt，rf等。这些模型想要提升复杂度的话总是有一些受限，而深度学习则不存在这个问题，如果Ein,EoutEin,E...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。