阅前须知:
为了使本文结构精简,理解简单,所以会尽量少涉及到有关数学公式,降低学习门槛,带领读者快速搭建ResNet-152经典模型并投入训练。
本文的最后会放出博主自己复现的ResNet模型,投入自己的数据集进行训练。
如读者在阅读时发现有错误的地方欢在评论的地方指出,共同进步
编译环境:Python3.5
TensorFlow-gpu 1.3.0
一、结构分析
关于ResNet的来源我就不进行赘述了,相信读者都对这个包揽各大图像识别赛事冠军的模型或多或少有一定的了解。
图片来源Google
说起卷积模型,LeNet、Inception、Vgg都是我们在学习图像识别领域神经网络的经典模型,以上图片模型就是经典的Vgg-19与34层传统卷积网络、ResNet-34的对比。
从计算量上来讲,Vgg-19的三层全连接神经网络的计算量明显大于传统卷积网络和resnet,传统卷积网络和resnet的参数数量相同
plain与resnet
从训练拟合度上讲,论文中分别给出了plain-18、plain-34和resnet-18、resnet-34的对比,我们不难发现plain随着层数的增加,精度并没有得到明显的提升,而resnet不仅随着层数的增加提高了训练精度,且相较同深度的plain而言精度更高
在以往的学习之中,我们知道深度网络随着层数的增加,很容易造成“退化”和“梯度消失”的问题,训练数据的过拟合。但在ResNet中,作者给出了一种解决方案:增加一个identity mapping(恒等映射,由于本文面向读者基础不同,就不加以详述,有能力的同学可以看一下ResNet作者的论文)
残差模块
上图是一个残差模块的结构示意,残差块想要有效果需要有两层或两层以上的layer,同时,输入x与输出F(x)的维度也须相同
residual block
在对于高于50层深度的resnet模型中,为了进一步减少计算量且保证模型精度,作者对残差模块进行了优化,将内部两层3*3layer换成1*1 → 3*3 → 1*1,。首先采用1*1卷积进行深度降维,减少残差模块在深度上的计算量,第二层3*3layer和之前的模块功能一样,提取图像特征,第三层1*1layer用于维度还原。
那么问题又来了,既然已经经过了3*3卷积,那输出维度怎么会一样呢?作者在论文中给出了三种解决方案:
1、维度不足部分全0填充
2、输入输出维度一致时使用恒等映射,不一致时使用线性投影
3、对于所有的block均使用线性投影。
在本文中,我们对模型主要采用全0填充。
好,以上就是简单的理论入门,接下来我们开始着手用TensorFlow对理论进行代码实现
二、实现规划(ResNet-50-101-152)
我们来选取最具有代表性的152层ResNe