ResNet论文笔记

y0k1n0

于 2024-07-25 18:26:27 发布

阅读量633

点赞数 18

文章标签：论文阅读 python 计算机视觉目标检测人工智能 pytorch

本文链接：https://blog.csdn.net/Yosh1n0/article/details/140696922

版权

在这里插入图片描述

神经网络加深，训练效果差可能是以下因素引起的：

神经网络越深本不应会“退化"
- 将一个深层神经网络拆解为一个浅层神经网络和若干个网络层的组合。
- 若干个网络层最差也可以训练成恒等映射 $(y = x)$
- 那么深层神经网络最差应该性能和浅层神经网络相同
"“退化”"的原因
- 现阶段的训练器无法在适当的时间内找到这样一个恒等映射或者将网络训练的更好
- 随着神经网络加深，收敛速度变慢，训练越来越困难

在这里插入图片描述

假设浅层网络的输出为 $x$ ，而整么模型需要学习的函数为 $H (x)$
对于若干个网络层的组合，与其重新学习 $H (x)$ 不如学习 $H (x)$ 与浅层网络的输出 $x$ 之间的残差 $H (x) - x$ ，记作 $F (x)$
因此整个模型的输出 $H (x)$ 可以写作 $F (x) + x$
在最差的情况下，模型学习到的 $F (x)$ 为0，即模型的输出最差也不会比输入要差

由上图可知，模型可以按照自己的序求选择是否使用函数 $f_i$ ，从而解决了模型深度增加带来的退化问题

在这里插入图片描述
$y=F(x,\{W_i\})+x$

$y=F(x,\{W_i\})+W_sx$

原文中作者对以下三种方式做了比较：

不难发现，在降低错误率方面C>B>A，但是由于C方案对所有的shortcut都是使用1*1卷积，提高的模型复杂度远高与对模型的改进，不划算，作者在其网络构建中使用的是B方案。

在这里插入图片描述

当通道维度增加时，由于卷积的特性会使得参数以平方的数量级增加，因此为了在更深层的网络上也可以进行训练，需要对残差块进行如下调整。下面假设输入特征的通道数均为256

原始的残差块：

改进的残差块

将输入特征经过 $1\times1$ 卷积调整通道数到64
然后经过一个输出通道数为64的 $3\times3$ 卷积
最后将输出通道数通过 $1\times1$ 卷积还原为256
参数量： $1\times1\times256\times64+3\times3\times64\times64+1\times1\times64\times256=69632$

总体比较参数量 $\frac{改进前}{改进后}=\frac{1179648}{69632}=16.94$ ，显著减少了参数量。

考虑一个两层的神经网络

关注