论文简介:
《Deep Residual Learning for Image Recognition》文章出自微软亚洲研究院何凯明团队,其分别获得ImageNet 2015 Detection, localization,Classification 任务的第一名,也分别获得 COCO 2015 Detection,Segmentation 任务的第一名。
一、Introduction 介绍
更大更深的网络模型具有更强大的representation power,由于梯度消失、梯度爆炸(vanishing/exploding gradients)等原因,深层网络比浅层网络更难进行训练。梯度消失、梯度爆炸在网络训练的起始阶段就会阻碍网络的收敛,较好的初始化策略,数据的归一化处理,Batch normalization,正则化,Dropout等技术已经可以有效的促进深度网络的高效训练。BN层的引入基本解决了plain net的梯度消失和梯度爆炸问题。
对于深层网络出现了退化现象(degradation),对于相同的数据集,更深层的网络比浅层的网络在训练集和测试集上都具有更大的误差。这不是因为过拟合问题,过拟合是训练集误差更小,测试集误差较大。
对于一个浅层网络和深层网络来说,浅层网络的解空间包含于深层网络的解空间,深层网络的解应该不差于浅层网络的解