关于ResNet的思考

最新推荐文章于 2024-06-05 21:16:16 发布

阿飞没有花福蝶

最新推荐文章于 2024-06-05 21:16:16 发布

阅读量520

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_45634318/article/details/125346142

版权

6月14日，本文的作者之一孙剑老师因病离世，让人扼腕叹息，他的研究成果极大推动了人工智能技术的发展和应用，孙老师的逝世是人工智能技术领域的一大损失。哀悼！

论文：https://arxiv.org/abs/1512.03385

代码：网上开源的有很多，github、Pytorch官网、paperswithcode网站等。

先聊一聊为什么想写这篇随笔。最开始这篇文章是我刚接触深度学习时就看过的一篇文章，当时有点囫囵吞枣，现在重新读了一篇，收获良多，所以想记录一下自己的学习过程。如有错误，恳请指正，我们一起进步！

首先要讲一讲神经网络研究中的这一个说法：“The Deeper, The Better”，通俗的来讲：网络层数越深，网络的提取特征的能力、表达的能力也会对应提高；同时层数的增加会使得神经网络能调整的参数变多。然而，复杂化神经网络是一把双刃剑，会带来一系列问题：梯度消失、梯度爆炸、过拟合、网络退化等问题。

梯度消失和梯度爆炸的根本原因是因为深度神经网络结构以及反向传播算法。优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过反向传播的方式，指导深度网络权值的更新。关于梯度消失/爆炸问题，已经有许多解决的方法，如归一化等。这个文章中也做了对应的说明。

ResNet所解决的正是深度神经网络训练过程中遇到的“退化问题”。下图为网络退化现象，我们可以看到深层模型通过训练反而取得更高的训练、测试误差。这种问题就引发了研究者的思考，能否对网络单元进行一定的改造来改善或者解决网络退化问题呢？

假设网络的输入为X （identity Function），输出为H(X)，也就是我们要求解映射，所以问题就变成了求解网络的残差映射函数F(X) （ResNet Function），F(X)=H(X)-X，H(X)是观测值，X是上一层网络输出的特征映射，然后问题就变成了求H(X)=F(X)+X。如果H(X)趋近于X，就说明残差在接近0，这样就保证了加深后的网络准确率至少不低于原来的网络。