深度学习笔记（三十五）残差神经网络ResNet

最新推荐文章于 2024-08-22 23:44:57 发布

Mr.zwX

最新推荐文章于 2024-08-22 23:44:57 发布

阅读量2k

点赞数

分类专栏：【深度学习/神经网络】Deep Learning

本文链接：https://blog.csdn.net/qq_16763983/article/details/113837088

版权

【深度学习/神经网络】Deep Learning 专栏收录该内容

86 篇文章 48 订阅

订阅专栏

训练深层神经网络时，如果深度特别大，其实是很难训练下去的，因为会遇到梯度消失和梯度爆炸的问题。残差网络可以帮助我们更好地训练深层神经网络。

一、残差块

在这里插入图片描述
在神经网络的两层中，会执行如下运算过程（主路径）

如果将 $a^{[l]}$ 拷贝到最后一个linear之后，ReLU之前，这个路径称作是捷径（shortcut）：

有时候这个捷径（shortcut）也称作远跳连接（skip connection）
在这里插入图片描述

通过这种方式，计算过程有一些改变，如下所示。
在这里插入图片描述

二、残差神经网络

首先给出一个普通神经网络
在这里插入图片描述
要使它变成残差神经网络，就是加上远跳连接。
每两层增加一个捷径，构成一个残差块，残差块组合在一起形成一个残差网络。

残差神经网络在训练深层神经网络时，有效预防了梯度爆炸/消失的问题，也解决了网络结构臃肿的问题，相比普通神经网络效果更佳。
在这里插入图片描述

三、为什么残差网络如此有效？

在这里插入图片描述
权重w和偏差b都取0的时候， $a^{[l+2]}=a^{[l]}$ ，这种恒等式不会影响到网络的效率，通过那两层还可以学习到一些特征信息，反倒可以提高网络效率。
值得注意的是 $z^{[l+2]}$ 和 $a^{[l]}$ 应该具有相同的维度才能实现加法运算！在ResNet中使用了许多same卷积方式，所以使得 $a^{[l]}$ 维度可以等于输出的维度，从而实现了远跳连接。
在这里插入图片描述