论文下载地址:http://cn.arxiv.org/pdf/1703.06870v3
介绍时所采用的Mask-RCNN源码(python版本)来源于GitHub:https://github.com/matterport/Mask_RCNN
1.图像缩放
数据预处理在构建网络模型时非常重要,往往能够决定训练结果,因此需要我们根据网络结构仔细设计输入数据的处理方式。通常数据预处理包含两部分:图像缩放、图像增强。
图像缩放,就是改变图像大小。这里的缩放不同于图像增强的缩放,是指缩放到网络可接受的图像大小。一方面由于网络结构和硬件的限制,需要特定尺寸大小的输入图像;另一方面,不同大小的图像对训练速度、特征提取也有一定的影响。
图像增强,就是对图像进行随机变换。这种变换不仅仅包括平移、旋转、缩放、白平衡等操作,还可以根据图像特性自定义一些变换方法。
本文介绍的是Mask-RCNN中关于第一部分图像缩放的具体流程及方法。
2.主要涉及参数
在mrcnn的配置文件config.py中可设定图像缩放的相关参数,其中与图像缩放有关的参数共4个,分别为:
- min_dim: 较短边缩放长度;
- max_dim: 较长边缩放长度;
- min_scale: 最小缩放比例;
- mode: 图像调整模式,[none,square,p