图像识别（五）| resnet50 的残差结构到底是什么？

董董灿是个攻城狮

已于 2023-05-02 16:31:34 修改

阅读量3.9k

点赞数 10

分类专栏：图像识别 and Resnet 网络拆解文章标签：人工智能 Resnet 残差结构

于 2022-06-22 12:46:22 首次发布

本文链接：https://blog.csdn.net/dongtuoc/article/details/125407048

版权

图像识别 and Resnet 网络拆解专栏收录该内容

30 篇文章

订阅专栏

One More Thing | 大数吃小数

桃树、杏树、梨树，你不让我，我不让你，都开满了花赶趟儿。红的像火，粉的像霞，白的像雪。花里带着甜味儿；闭了眼，树上仿佛已经满是桃儿、杏儿、梨儿。花下成千成百的蜜蜂嗡嗡地闹着，大小的蝴蝶飞来飞去。野花遍地是：杂样儿，有名字的，没名字的，散在草丛里，像眼睛，像星星，还眨呀眨的。

朱自清在写《春》的时候，或许也没有完全认清春天的所有花，以至于写出了“有名字的，没名字的，散在草丛中”这样的句子。

如今，时代变了。人手一部手机的我们，遇到不认识的花，随时随地就可以打开手机百度识图功能来完成识图。“杂样儿的，有名字的，有名字的，有名字的，有名字的 ... 都散落在手机里，像眼睛，像星星，还眨呀眨的”！

而让我们如此轻松加愉悦的完成识图功能的，便是手机背后运行的大量卷积神经网络，或者说是CNN网络。

导读

上一篇文章

图像识别（四）| 卷积的核心，特征提取_董董灿是个攻城狮的博客-CSDN博客上一篇文章——初识卷积，聊到了卷积这一算法。通俗点讲，卷积就是模仿的人眼识图的过程，以“感受野”的视角去扫描图片，从而获取不同区域的图片信息。但其实，这并不是卷积算法的核心思想。卷积的核心，是通过设计多个卷积核，同时对一张图片进行卷积操作，以完成不同特征的提取。本篇重点围绕特征提取这一概念，聊一聊卷积。...https://blog.csdn.net/dongtuoc/article/details/125344227?spm=1001.2014.3001.5502

聊了聊卷积的核心思想，那就是特征提取，文章最后也介绍了Resnet50这一图像分类网络。

本来打算继续写卷积公式的，但是怎么用比较通俗科普性的文字把枯燥的公式写出来，我一时也不知如何下手，真的体会到了小品《白云黑土》中白云写《月子》的感受。

在家，7天憋出6个字来！

估计公式这篇是难产了，后面慢慢写吧。但是，不看公式实际上并不影响整个图像识别系列文章的阅读。于是，我打算接着上篇末尾介绍Resnet50的逻辑，继续聊聊这个图像分类网络，以及它的思想。

为什么叫Resnet50

研究AI网络的人拥有网络命名权。

比如我研究出来一个网络，效果很好，要发一篇论文来介绍这个网络，论文中需要给网络起个名字，并且希望这个名字可以流传很广。那么，简单、好记同时又能概括网络思想的名字肯定是首选。

Resnet50 就是这样的名字，这个网络的核心思想，就藏在名字里。

Res + net + 50，Res 是 Residual （残差）的缩写，50 指的是整个网络中有50个卷积层。

下图是Resnet50的网络结构图，可以看到，从第一层到最后一层，总共50个卷积算法。

那么Res（Residual）残差又是个什么东西呢？

残差结构

(残差结构）

所谓残差结构，其实就是在正常的神经网络中，增加一个 short cut 分支结构，也称为高速公路。比如上图中，左侧是正常的卷积层，一层层往下传，在右侧增加一条连线，使得整个网络结构形成了一个残差结构。这样，网络的输出不再是单纯卷积的输出F(x)，而是卷积的输出和前面输入的叠加F(x) + X。

为什么要增加残差结构

在前面说过，深度卷积神经网络在网络深度不断加深的过程中，神经网络会学到不同的特征。

但是，能无限制地加深么？比如使用1000层卷积层进行网络的训练的。答案显然是不行的。原因在于神经网络训练的过程是不断与目标值进行拟合的过程，直到拟合的误差降低到人们的预期，代表着神经网络训练完毕，一个会识图的AI就诞生了。

但是在实际训练过程中，数据的传递除了从网络前端往后传之外，还需要将最后一层与目标值的误差传回到网络前端，从而进行下一轮的训练，得到更小的误差，这一过程成为神经网络的反向传播。

在往回传的过程中，由于误差本身就很小，如果卷积层数过多，在经过激活函数时，很容易发生误差传着传着就消失了，称为梯度消失。

梯度消失的原因有很多种，不好的激活函数、过深的网络层数等都有可能导致误差消失。想象一下，上一轮训练结果的误差传不回来，下一轮如何在上一轮的基础上进行进一步优化训练？结果就会导致怎么训练神经网络最终的结果都无法收敛。

AI根本训练不出来！

残差来救场

残差结构这个时候就可以发挥作用！

想象一下，这个高速公路的存在，可以使得输入数据无损地通过。如果左侧卷积层学习到的数据不够好，那么叠加上无损通过的原始数据，依然保留了原始数据，不至于丢掉原始数据。

而如果左侧卷积层学习到的效果很好，那么依然会保留着学习到的数据，下面的卷积层依然可以在这些数据基础上进一步学习优化。

反向传递也是一样，高速公路的存在，可以确保即使很小的误差也能传递过来，从而避免了梯度消失的发生。说回Resnet50，这个网络就是通过50层卷积的计算，外加残差结构连接，来完成图像分类的。

实际上，目前各大公司直接使用Resnet50进行图像分类是很少的，大多数公司会在这个网络的基础上，结合自家公司的业务场景进行改造，或者直接借鉴Resnet50的网络设计思想，重新设计新的网络，以期获得更加高效的识图效果。看到这，你或许能够了解，当我们打开百度识图完成图像识别时，它的背后，可能不是Resnet50这一网络，但肯定是有卷积和残差这两个算法！