ResNet文献阅读报告
一、背景简介
我选择的文献是Deep Residual Learning for Image Recognition,这篇论文的第一作者为何恺明,并夺得了2016年CVPR的best paper奖项。
深度学习中的网络从AlexNet,到VGG,再到GoogleNet,经历了网络层数的逐步加深。更深层的网络有着更强大的表征能力,可以提取出更加复杂的特征,从原则上来说应该会带来更好的结果。但是仅仅通过堆积层数来加深网络,会带来梯度消失和梯度爆炸的问题,进而使网络更难收敛;同时,网络性能会逐渐趋于饱和,甚至开始下降,这也被称为深度网络的退化问题。
在这种背景下,作者提出了ResNet深度残差网络,成功解决了退化问题,使得网络性能随着网络层数的增加而增加。
二、残差结构
ResNet中引入了残差网络结构,即在输入和输出层之间添加了一个直接通路,即恒等映射。对于一般的网络,网络需要学习的是从输入到输出的映射H(x),而对于残差网络,网络需要学习的是H(x)-x。残差结构见下图所示。
残差结构的提出源于作者作出的假设:对于一个更深层的网络,如果多出来的层仅仅做了恒等映射的话,那么更深层的网络性能一定不会比浅层网络的性能要差。残差结构既没有增加原模型的计算复杂度,