caffe学习笔记27-ResNet论文笔记

最新推荐文章于 2022-12-22 12:57:37 发布

YiLiang_

最新推荐文章于 2022-12-22 12:57:37 发布

阅读量1.2k

点赞数

分类专栏： caffe deep learning

本文链接：https://blog.csdn.net/YiLiang_/article/details/60468237

版权

deep learning 同时被 2 个专栏收录

40 篇文章 0 订阅

订阅专栏

caffe

39 篇文章 0 订阅

订阅专栏

本文探讨了深度神经网络中出现的性能退化问题，并介绍了ResNet如何通过深度残差学习来解决这个问题。ResNet的引入使得更深层的网络能够在训练和测试误差上保持稳定，其结构包括直线型、局部双分支型和局部多分支型。通过求取残差映射，ResNet简化了优化问题，尤其是当最优映射为恒等映射时，网络参数可趋向于0。

摘要由CSDN通过智能技术生成

ResNet：

1.为使用网络层数更多，通常采用的方法有：初始化算法，BN方法

2.是否简单堆叠的网络层数越多，训练误差和测试误差就越小?答案正好相反

3.准确度下降问题（网络越深，训练误差和测试误差越大）：可通过深度残差学习（Deep Residual Learning）来解决

4.目前流行的深度神经网络结构大致可以分为三类：

- 直线型（如AlexNet, VGGNet）

- 局部双分支型（ResNet）

- 局部多分支型（GoogleNet）

很久以前人们就已经认识到更深的网络能够产生更好的数据表达，但是如何训练一个很深的网络却一直是一个困扰人们的问题，这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题，人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法，但是本文作者却发现即使有这些方法，神经网络的训练仍然呈现了degradation的现象。所谓degradation现象，就是随着网络深度的增加，网络的性能反而下降，而且这种性能的下降并不是由前面所说的问题造成的。

这里我们首先求取残差映射 F(x):= H(x)-x，那么原先的映射就是 F(x)+x。尽管这两个映射应该都可以近似理论真值映射 the desired functions (as hypothesized)，但是它俩的学习难度是不一样的。

这种改写启发于"网络层数越多，训练和测试误差越大"性能退化问题违反直觉的现象。如果增加的层数可以构建为一个恒等映射(identity mappings)，那么增加层数后的网络训练误差应该不会增加，与没增加之前相比较。性能退化问题暗示多个非线性网络层用于近似identity mappings 可能有困难。使用残差学习改写问题之后，如果identity mappings 是最优的，那么优化问题变得很简单，直接将多层非线性网络参数趋0。