什么是残差网络结构

大家好啊,我是董董灿。

在我刚开始学习AI算法时,有一次参加一个线下的讨论,有个西南大学的本科生,在做汇报时说到了残差网络具有很好的推理效果。

那时的我还未入门,像是听天书,听了半天没搞懂说的啥意思,但是却记住了残差这个词。

那么残差到底是什么呢?在神经网络中他又为什么那么重要呢?

1、残差网络和Resnet

经常读我文章的小伙伴可能指导,我之前写了很多拆解 resnet50 这个网络中算法原理的文章万字长文解析Resnet50的算法原理

而残差网络在这一网络中就有很显著的作用。在很多学科中,残差指的是:预测值与实际值之间的误差。

而在残差网络中,大致也可以这么理解。只不过在神经网络结构中,残差有更加具体的表示,一般表示为残差块,如下图。

图片

对于正常的神经网络,输入X,那么输出可以表示为F(x),其中F就是神经网络逼近的一个函数。

而残差块的输出除了F(x)之外,还会加上原始输入,也就是说,残差块作为一个神经网络模块,它的输出为:F(x) + x。

在原始论文中,残差块的结构被叫作 short-cut结构,翻译成中文被叫做高速公路。

比如上图中,左侧是正常的神经网络层,一层层往下传,在右侧增加一条直连的线,如此一来,整个网络结构形成了一个残差结构。

原始输入可以顺着右侧的线,如跑高速一般,直接到达残差网络的终点,这就是残差结构。

2、为什么要增加残差结构

深度学习算法之所以区分传统的机器学习,一个关键点在与“深度”二字。

随着神经网络层数的不断增加,神经网络的深度就越深,网络学到的特征就会更加丰富。

但是,能无限制地加深么?肯定是不行的,原因在于不好训练。

神经网络训练的过程是不断与目标值进行拟合的过程,直到拟合的误差降低到人们的预期,那么久代表着神经网络训练完毕,一个AI就诞生了。

但是在训练过程中,数据的传递除了从前往后传之外,还需要将最后一层与目标值的误差往前传,从而在进行下一轮训练时,可以获得更小的误差,这一过程便是神经网络的反向传播

在往回传的过程中,由于误差本身就很小,如果神经网络层数过多,在经过激活函数时,很容易发生误差传着传着就消失了,称为梯度消失

梯度消失的原因有很多种,不好的激活函数、过深的网络层数等都有可能导致误差消失。

上一轮训练结果的误差传不回来,下一轮如何在上一轮的基础上进行进一步优化训练?结果就会导致怎么训练神经网络最终的结果都无法收敛。

AI根本训练不出来,这个时候残差就可以发挥作用。

想象一下,这个高速公路的存在,可以使得输入数据无损地通过。

如果左侧卷积层学习到的数据不够好,那么叠加上无损通过的原始数据,依然保留了原始数据,不至于丢掉原始数据。

而如果左侧卷积层学习到的效果很好,那么依然会保留着学习到的数据,下面的卷积层依然可以在这些数据基础上进一步学习优化。

反向传递也是一样,高速公路的存在,可以确保即使很小的误差也能传递过来,从而避免了梯度消失的发生。

有了残差结构,我们就可以把神经网络设计的更深一些,从而使得神经网络可以识别出更加丰富的特征。

自从有了残差结构,很多网络开始借鉴这种网络设计方法,甚至有些网络会直接把res block,也就是残差块当做一个网络单元来用,这样网络可以设计的更深,提取特征的效果也就更好。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董董灿是个攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值