《Fixing the train-test resolution discrepancy》是最近在Imagenet上分类最好的算法模型,文章主要是针对训练的策略和预处理方式进行了改进。
具体的实现方法是用小分辨率的图片训练模型,之后用稍大的分辨率的图片微调模型。
图像分类的预处理,首先对图片进行裁剪,裁剪后对图片Resize后送入模型进行训练,而裁剪不同分辨率的图片块会对模型产生很大的影响,在训练和微调时作者采用不同的处理方式,训练阶段作者采用RandomResizedCrop,微调时采用CenterCrop;
微调只训练模型的全连接层;
具体实验过程:
训练阶段 :图像增强方式:horizontal flip,random resized Crop, color jittering;
微调阶段: 图像增强方式是把数据分为三部分进行增强:
- 第一部分是把测试图片resizing后center Crop;
- 第二部分是把测试图片Resize后,random horizontal shift of the center crop, horizontal flip and color jittering;
- 第三部分是训练时增强后的训练数据直接拿过来
文章中作者也提到为增加准确率,作者对几种分类模型的结果取平均来分类预测;
这是我基本上get到的信息,文章中对图片不同分辨率对模型的影响进行了细致的阐述,感兴趣的可以直接阅读原文。