Resnet结构的有效性解释

Midsummer-逐梦

已于 2024-01-18 23:01:51 修改

阅读量992

点赞数 15

分类专栏：深度学习文章标签：人工智能深度学习机器学习

于 2024-01-18 22:57:27 首次发布

本文链接：https://blog.csdn.net/qq_46396470/article/details/135686162

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细解释了ResNet网络中块结构的作用，尤其是如何通过引入残差连接避免梯度消失问题，使得信号能够直接从低层传播到高层，提升了网络训练效率。

摘要由CSDN通过智能技术生成

Resnet结构的有效性解释

先看一看Resnet网络的块结构：
在这里插入图片描述

根据上图，设有函数
$\mathbf{z}^{(l)}=\mathbf{x}^{(l-1)}+\mathcal{F}(\mathbf{x})^{(l-1)}\tag{1}$
考虑由式 $(1)$ 组成的前馈神经网络，假设残差块不使用激活函数，那么整个式子仍然是线性变换，可得：
$\mathbf{x}^{(l)}=\mathbf{z}^{(l)}\tag{2}$
考虑任意两个层数 $l_2>l_1$ ,联合 $(1)$ 式和 $(2)$ 式，将 $\mathbf{x}$ 进行递归展开
$\begin{align*} \mathbf{x}^{(l_2)}&=\mathbf{x}^{(l_2-1)}+\mathcal{F}\left((\mathbf{x}^{(l_2-1)}\right)\\ &=\left(\mathbf{x}^{(l_2-2)}+\mathcal{F}\left((\mathbf{x}^{(l_2-2)}\right)\right)+\mathcal{F}\left((\mathbf{x}^{(l_2-1)}\right)\\ &=\mathbf{x}^{l_1}+\sum_{l=l_1}^{l_2-1}{\mathcal{F}(\mathbf{x}^{(l)})}\tag{3} \end{align*}$
根据式 $(3)$ ,前向传播时，输入信号可以从任意低层直接传播到高层。这种天然的恒等映射在一定程度上解决了网络退化问题。

利用链式求导法则，网络前向传播的损失 $L$ 对某低层输出的梯度可以展开为：
$\begin{align*} \frac{\partial L}{\partial \mathbf{x}^{(l_1)}}&=\frac{\partial L}{\partial \mathbf{x}^{(l_2)}}\frac{\partial \mathbf{x}^{(l_2)}}{\partial \mathbf{x}^{(l_1)}}\\ &=\frac{\partial L}{\partial \mathbf{x}^{(l_2)}}\left(1+\frac{\partial}{\partial \mathbf{x}^{(l_1)}}\sum_{l=l_1}^{l_2-1}{\mathcal{F}(\mathbf{x}^{(l)})}\right)\\ &=\frac{\partial L}{\partial \mathbf{x}^{(l_2)}}+\frac{\partial L}{\partial \mathbf{x}^{(l_2)}}\frac{\partial}{\partial \mathbf{x}^{(l_1)}}\sum_{l=l_1}^{l_2-1}{\mathcal{F}(\mathbf{x}^{(l)})}\tag{4} \end{align*}$

根据式 $(4)$ ，损失对某低层输出的梯度，被分解成了两项，第一项表明在反向传播时，信号可以直接传播到低层，从而缓解了梯度消失问题，即使中间层权重矩阵很小，梯度也不容易消失。

Midsummer-逐梦

关注

15
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Resnet结构的有效性解释

损失对某低层输出的梯度，被分解成了两项，第一项表明在反向传播时，信号可以直接传播到低层，从而缓解了梯度消失问题，即使中间层权重矩阵很小，梯度也不容易消失。,前向传播时，输入信号可以从任意低层直接传播到高层。这种天然的恒等映射在一定程度上解决了网络退化问题。利用链式求导法则，网络前向传播的损失。
复制链接

扫一扫