快捷连接残差_Resnet 结构解析

最新推荐文章于 2024-01-17 16:33:28 发布

weixin_39718460

最新推荐文章于 2024-01-17 16:33:28 发布

阅读量814

点赞数

文章标签：快捷连接残差

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39718460/article/details/112943842

版权

面对梯度下降问题,我们考虑这样一个事实：现在你有一个浅层网络，你想通过向上堆积新层来建立深层网络，一个极端情况是这些增加的层什么也不学习，仅仅复制浅层网络的特征，即这样新层是恒等映射(Identity mapping)。在这种情况下，深层网络应该至少和浅层网络性能一样，也不应该出现退化现象。

ResNet 的核心思想是引入一个恒等快捷连接(identity shortcut connection)的结构,直接跳过一个或多个层:

image

对于一个堆积层结构(几层堆积而成)当输入为 x 时其学习到的特征记为 H(x) ，现在我们希望其可以学习到残差 F(x)=H(x)-x ，这样其实原始的学习特征是 F(x)+x 。之所以这样是因为残差学习相比原始特征直接学习更容易。当残差为0时，此时堆积层仅仅做了恒等映射，至少网络性能不会下降，实际上残差不会为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。

为什么残差网络更容易学习?

假如残差单元可以表示为:

与

分别表示第l个残差单元的输入和输出,

则从浅层l 到深层 L的学习特征为:

利用链式法则,得到反向传播的梯度为:

image

小括号中的1表明短路机制可以无损地传播梯度，而另外一项残差梯度则需要经过带有weights的层，梯度不是直接传递过来的。残差梯度不会那么巧全为-1，而且就算其比较小，有1的存在也不会导致梯度消失。所以残差学习会更容易。

(三)残差网络单元

文章提出了两种残差结构:

残差结构

这种结构对应的是ResNet34,称为一个building block;

对应的pytorch 代码为:

def conv3x3(in_planes, out_planes, stride=1):

"""3x3 convolution with padding"""

return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,

padding=1, bias=False)

def conv1x1(in_planes, out_planes, stride=1):

"""1x1 convolution"""

return nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride, bias=False)

cla

最低0.47元/天解锁文章

weixin_39718460

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
快捷连接残差_Resnet 结构解析

面对梯度下降问题,我们考虑这样一个事实：现在你有一个浅层网络，你想通过向上堆积新层来建立深层网络，一个极端情况是这些增加的层什么也不学习，仅仅复制浅层网络的特征，即这样新层是恒等映射(Identity mapping)。在这种情况下，深层网络应该至少和浅层网络性能一样，也不应该出现退化现象。ResNet 的核心思想是引入一个恒等快捷连接(identity shortcut connection...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。