Deep Residual Learning for Image Recognition 论文笔记

最新推荐文章于 2023-02-27 22:01:51 发布

Monalena

最新推荐文章于 2023-02-27 22:01:51 发布

阅读量236

点赞数

本文链接：https://blog.csdn.net/sweetwind1996/article/details/104531207

版权

Abstract

网络深度的增加带来的新问题：深度网络的训练过程是不是就像增加网络层那么简单？
当更深的网络开始收敛，就会暴露出一个退化问题：当网络的深度逐渐增加，其正确率会趋于饱和，紧接着就会快速下降。这种下降不是由过拟合造成的，而是因为对一个已经比较合适的网络增加更多的层会导致更高的训练误差。正确率下降的现象表明：并不是所有的网络的优化方式都是类似的。
为了解决正确率下降的问题，本文引入了深度残差学习框架。该框架会使网络层拟合一个残差函数F(x)，而不是直接去拟合底层目标函数。记底层映射为H(x)，令堆叠的非线性层拟合另一个函数：F(x):=H(x) - x，x为网络的输入。那么原映射就可以表示为H(x) = F(x) + x。我们假设恒等映射为该堆叠的非线性层的最有解(即H(x) = x)，那么使得残差F(x) = 0比多个非线性层去拟合一个恒等映射更加简单。
本文中的shortcut connections表示恒等映射，它们的输出值都加到堆叠层的输出值上。恒等连接不会引入额外的参数和计算量。
我们发现：1.普通的网络在深度增加时会产生更高的训练损失，但是我们的非常深的残差网络很容易优化。2.我们的深度残差网络随着深度的增加可以获得更高的正确率。