Very Deep Convolutional Networks for Large-scale Image Recognition(VGG-Net)
论文简述
本文探究了在大规模图像识别任务中,卷积网络深度对模型准确度的影响。使用带有非常小(3×3)卷积滤波器的体系结构对深度增加的网络进行全面评估。
论文要点
网络结构
-
通用布局
通用布局起到控制变量,各卷积层使用相同的原理设计,如卷积核大小,通道数,全连接层和softmax层等。每个隐层后均采用ReLU实现非线性。 -
3×3 滤波器
能够捕捉到上下左右概念的最小尺寸。
两个3×3的卷积等同于5×5的卷积的感受野。采用3×3卷积核的优势:- 采用两次ReLu的非线性操作,提升判别函数的识别能力。
- 减少参数数量
-
1×1滤波器
不改变卷积层的感受野的同时,增强判别函数的非线性(本身是线性映射,但ReLU函数赋予了额外的非线性)
训练过程
- 图像等比缩放生成训练图片,最小边长为S(也成为训练尺寸)。每次SGD迭代时选中的训练图片进行裁剪,大小为224×224。
- S可以为单尺寸,也可为多尺寸[Smin,Smax]。因为实际图像中物体具有不同的大小,多尺度可以将这部分考虑入,也可认为是通过尺寸抖动来扩充数据集
测试过程
- 同理,有测试尺寸Q,Q不需要等于S,也可以采用尺寸抖动。
对于固定S,取Q={S-32,S,S+32};对于变量S,取Q={Smin,0.5*(Smin+Smax),Smax}。 - 密集评估(dense evaluation)
将全连接层转换为卷积层,形成全卷积网络,并应用于整个测试图片上(不进行裁剪)。最终生成一个类分数映射,通道数等于类数,空间分辨率可变,取决于输入图像的大小。为获取固定尺寸的类分数,将类分数映射在空间上求平均。 - 多裁剪评估(multi-crop evaluation)
方式同训练过程,两种评估方式的主要区别在于不同的卷积边界条件:对于裁剪后的图像,卷积时特征图用0进行填充,而对于密集估计,可以认为特征图的填充是来自于图像的周边部分,从而增加网络的感受野。
两者在一定程度上互补。
评估结论
- 随着卷积网络深度的增加,误差率降低
- 小滤波器的深层网络 的表现优于 大滤波器的浅层网络
- 在训练集和测试集上的尺寸抖动都会使结果优于固定尺寸
- 两种评估方式的融合和最优网络融合也可以提升结果表现
思考
- 训练集和测试集的尺寸抖动会扩充数据集且提高准确度
- 多种模型和方法融合,效果可能会更好