1.6 大型深网与恒等映射

最新推荐文章于 2023-12-15 21:24:52 发布

PULSE_喔豁

最新推荐文章于 2023-12-15 21:24:52 发布

阅读量1k

点赞数 1

分类专栏： cnn 文章标签：深度学习网络人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013817537/article/details/116500556

版权

cnn 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

人们发现当深网深到一定程度时，模型的性能逐渐上升至饱和，然后下降，这被称为网络退化问题。

网络退化的原因是非线性激活函数造成的不可逆信息损失[52]，因此深层网络比浅层网络错误率更高，更难以被优化。

为了解决这样的问题，需要提出一个能解决“恒等映射”的想法——哪怕更深的层什么都不做，也比变差更好（保留深层提取语义信息的能力和至少不网络退化）。

有了需求，一个满足需求的更大突破到来了。2015年ILSVRC竞赛冠军Resnet的成绩为3.57%（2014年冠军成绩为6.7%），模型深度达到了恐怖的152层[53]。如此深网而不造成网络退化的秘诀在于它的数学模型——残差级联，如图7。

如我们所知，“恒等映射”既然需要什么都不做，那不如直接把网络的浅层跳跃连接到深层。跳跃连接带着浅层的输出与被跳过的层的输出的加和作为深层的输入。

在这种短路结构中，需要优化的函数从H(x)变成了F(x)=H(x)-x，也就是所谓残差，残差F(x)比输出函数H(x)更易优化。

如图7中的两层残差结构，其数学表达式为式8。残差结构使用身份映射使跨层连接的维度一致，这在多层剩余函数连接时对网络退化有优势。

同时，反向传播时，残差结构对梯度消失问题也有缓解作用，如式9。残差结构解决了深网的网络退化问题，保证了网络深度带来的抽象理解能力。

Resnet的劣势也显而易见，如果说走跳跃连接shortcut更易收敛的话，非shortcut之路不传递梯度也是可以的，也就是说，有一些block块可能会直接废掉，这一点亟待解决。

图7 残差学习单元

式7 BN层的正向传播

式8 残差块数学原理

式9 残差结构缓解梯度弥散

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
1.6 大型深网与恒等映射

人们发现当深网深到一定程度时，模型的性能逐渐上升至饱和，然后下降，这被称为网络退化问题。网络退化的原因是非线性激活函数造成的不可逆信息损失[52]，因此深层网络比浅层网络错误率更高，更难以被优化。为了解决这样的问题，需要提出一个能解决“恒等映射”的想法——哪怕更深的层什么都不做，也比变差更好（保留深层提取语义信息的能力和至少不网络退化）。有了需求，一个满足需求的更大突破到来了。2015年ILSVRC竞赛冠军Resnet的成绩为3.57%（2014年冠军成绩为6.7%），模型深度达到了恐怖的152
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。