图像识别(五)| resnet50 的残差结构到底是什么?

导 读

为什么叫Resnet50

残差结构

为什么要增加残差结构

残差来救场

Resnet ,简单,暴力,有效

One More Thing | 大数吃小数

桃树、杏树、梨树,你不让我,我不让你,都开满了花赶趟儿。红的像火,粉的像霞,白的像雪。花里带着甜味儿;闭了眼,树上仿佛已经满是桃儿、杏儿、梨儿。花下成千成百的蜜蜂嗡嗡地闹着,大小的蝴蝶飞来飞去。野花遍地是:杂样儿,有名字的,没名字的,散在草丛里,像眼睛,像星星,还眨呀眨的。

朱自清在写《春》的时候,或许也没有完全认清春天的所有花,以至于写出了“有名字的,没名字的,散在草丛中”这样的句子。

如今,时代变了。人手一部手机的我们,遇到不认识的花,随时随地就可以打开手机百度识图功能来完成识图。“杂样儿的,有名字的,有名字的,有名字的,有名字的 ... 都散落在手机里,像眼睛,像星星,还眨呀眨的”!

而让我们如此轻松加愉悦的完成识图功能的,便是手机背后运行的大量卷积神经网络,或者说是CNN网络。

导 读

上一篇文章

图像识别(四)| 卷积的核心,特征提取_董董灿是个攻城狮的博客-CSDN博客上一篇文章——初识卷积,聊到了卷积这一算法。通俗点讲,卷积就是模仿的人眼识图的过程,以“感受野”的视角去扫描图片,从而获取不同区域的图片信息。但其实,这并不是卷积算法的核心思想。卷积的核心,是通过设计多个卷积核,同时对一张图片进行卷积操作,以完成不同特征的提取。本篇重点围绕特征提取这一概念,聊一聊卷积。...https://blog.csdn.net/dongtuoc/article/details/125344227?spm=1001.2014.3001.5502

聊了聊卷积的核心思想,那就是特征提取,文章最后也介绍了Resnet50这一图像分类网络。

本来打算继续写卷积公式的,但是怎么用比较通俗科普性的文字把枯燥的公式写出来,我一时也不知如何下手,真的体会到了小品《白云黑土》中白云写《月子》的感受。

在家,7天憋出6个字来!

估计公式这篇是难产了,后面慢慢写吧。但是,不看公式实际上并不影响整个图像识别系列文章的阅读。于是,我打算接着上篇末尾介绍Resnet50的逻辑,继续聊聊这个图像分类网络,以及它的思想。

为什么叫Resnet50

研究AI网络的人拥有网络命名权

比如我研究出来一个网络,效果很好,要发一篇论文来介绍这个网络,论文中需要给网络起个名字,并且希望这个名字可以流传很广。那么,简单、好记同时又能概括网络思想的名字肯定是首选。

Resnet50 就是这样的名字,这个网络的核心思想,就藏在名字里。

Res + net + 50,Res 是 Residual (残差)的缩写,50 指的是整个网络中有50个卷积层。

下图是Resnet50的网络结构图,可以看到,从第一层到最后一层,总共50个卷积算法。

那么Res(Residual)残差又是个什么东西呢?

残差结构

(残差结构)

所谓残差结构,其实就是在正常的神经网络中,增加一个 short cut 分支结构,也称为高速公路。比如上图中,左侧是正常的卷积层,一层层往下传,在右侧增加一条连线,使得整个网络结构形成了一个残差结构这样,网络的输出不再是单纯卷积的输出F(x),而是卷积的输出和前面输入的叠加F(x) + X

为什么要增加残差结构

在前面说过,深度卷积神经网络在网络深度不断加深的过程中 ,神经网络会学到不同的特征。

但是,能无限制地加深么?比如使用1000层卷积层进行网络的训练的。答案显然是不行的。原因在于神经网络训练的过程是不断与目标值进行拟合的过程,直到拟合的误差降低到人们的预期,代表着神经网络训练完毕,一个会识图的AI就诞生了。

但是在实际训练过程中,数据的传递除了从网络前端往后传之外,还需要将最后一层与目标值的误差传回到网络前端,从而进行下一轮的训练,得到更小的误差,这一过程成为神经网络的反向传播

在往回传的过程中,由于误差本身就很小,如果卷积层数过多,在经过激活函数时,很容易发生误差传着传着就消失了,称为梯度消失

梯度消失的原因有很多种,不好的激活函数、过深的网络层数等都有可能导致误差消失。想象一下,上一轮训练结果的误差传不回来,下一轮如何在上一轮的基础上进行进一步优化训练?结果就会导致怎么训练神经网络最终的结果都无法收敛

AI根本训练不出来!

残差来救场

残差结构这个时候就可以发挥作用!

想象一下,这个高速公路的存在,可以使得输入数据无损地通过。如果左侧卷积层学习到的数据不够好,那么叠加上无损通过的原始数据,依然保留了原始数据,不至于丢掉原始数据。

而如果左侧卷积层学习到的效果很好,那么依然会保留着学习到的数据,下面的卷积层依然可以在这些数据基础上进一步学习优化。

反向传递也是一样,高速公路的存在,可以确保即使很小的误差也能传递过来,从而避免了梯度消失的发生。说回Resnet50,这个网络就是通过50层卷积的计算,外加残差结构连接,来完成图像分类的。

实际上,目前各大公司直接使用Resnet50进行图像分类是很少的,大多数公司会在这个网络的基础上,结合自家公司的业务场景进行改造,或者直接借鉴Resnet50的网络设计思想,重新设计新的网络,以期获得更加高效的识图效果。看到这,你或许能够了解,当我们打开百度识图完成图像识别时,它的背后,可能不是Resnet50这一网络,但肯定是有卷积和残差这两个算法!

Resnet ,简单,暴力,有效

Resnet50网络的结构其实说简单,它很简单,而且算法思想也很简洁,就是50层卷积的计算,依据卷积局部感受野这一特性,抽取出图像的不同特征,通过最后一层卷积(或者叫做全连接)将图片进行分类。

这样的网络设计,分类效果很好,使得 Resnet50 多次在图像分类大赛中夺冠!Resnet50除了大量使用了卷积这一算法之外,一个简单暴力的残差结构的应用,使得该网络无论在训练还是推理过程中,其效果都极为出彩!

从此,残差这一结构,受到了人们的关注,以至于,有人开始专门研究不同层之间的残差连接。

一句话。Resnet50的核心是卷积和残差,卷积的核心是特征抽取。

这句话,几乎是本系列前5篇文章的中心思想。

下一篇,会开始涉及激活函数,你有没有想过,为什么CNN 的每个卷积后面都需要跟一个激活函数呢?敬请期待。

One More Thing | 大数吃小数

反向传播中,一个很小的误差,在反向传播经过激活函数(比如Sigmoid激活函数)时,有可能结果为零,这就是上面我们说的梯度消失

但实际上,在计算机的科学计算中,同样存在一个很有趣的事情,使得很小的数在参与计算的过程中,并不起作用。这就是大数吃小数。什么意思呢?

如果你用一个超大的数,去加上一个很小的数,你会发现,结果和你的预期是不一致的。比如我有以下简单的C语言代码,一个超大数是 20000000, 一个很小数是1,两个数相加。

#inlcude "stdio.h"

你可能期望得到的结果是 20000001,但是结果却依然是 20000000!

很明显,小的数字 1 被大数 20000000吃掉了!你可以运行上述代码实际测试一下。为什么会有大数吃小数这一现象呢?

这就跟数据在内存的存储格式有关了,感兴趣的同学可以查看 IEEE754 标准的浮点数在内存中的表示。如果过去、现在或者未来,你发现你的程序出现了这种不可思议的错误,尤其是在你做好几万次加法循环的时候,不要怀疑出现了幻觉,也不要怀疑人类科技被智子锁死了,翻一翻计算机标准,你会豁然开朗的。

往期文章推荐:

图像识别(一)| 从像素说起_董董灿是个攻城狮的博客-CSDN博客

图像识别(二)| 图像的色彩空间_董董灿是个攻城狮的博客-CSDN博客

图像识别(三)| 初识卷积_董董灿是个攻城狮的博客-CSDN博客

图像识别(四)| 卷积的核心,特征提取_董董灿是个攻城狮的博客-CSDN博客

更多信息,请查看专栏

https://blog.csdn.net/dongtuoc/category_11863193.htmlhttps://blog.csdn.net/dongtuoc/category_11863193.html



v v v v v v

**本文为作者原创,请勿转载,转载请联系作者。**
**点击下方卡片,关注我的公众号,有最新的文章和项目动态。**

v v v v v v

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董董灿是个攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值