论文题目:Identity Mappings in Deep Residual Networks
--Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
Abstract
文章分析了 ResNet 中 Identity mapping 为什么比较好,为何能让梯度在网络中顺畅的传递而不会爆炸或消失,实验方面 1001层的 ResNet 在CIFAR10上4.62%的错误率,在CIFAR100和ImageNet上也做了实验。
Introduction
先回顾下ResNet中的 Residual Units:
Residual Units可以如下表示:上图中的H与下面的h不是一个东西,别管上图了,从两篇文章截的图,有点不一样。
上面公式中:h 表示 shortcut 使用什么形式的变换(Resdual Net论文[1]中给出了A,B,C3种,最后用的 Identity map,也就是 h(x)= x,这篇文章进一步分析了 Identity map 为什么好)
F 是 residual function。F= y-h(x)
f 为Residual Units输出处使用的函数,[1] 中用的ReLU,即上图中最下面那个relu。
本文提出 f 也该用 Identi