1. 需求创造好的产品,产品拓宽原始的需求
当前的深度神经网络一般都需要固定的输入图像尺寸(如224*224). 这种需求很明显是人为的,潜在性的弊端会降低识别精度(为了使图像尺寸相同,一定会涉及到图像的比例/非比例放缩,这就引入了尺度误差和形变误差)。何凯明师兄的这项工作主要是讲多分辨率搜索的思想融入到了现有的深度网络中,从而实现了多尺度网络的训练以及识别,进而提升了图像分类和目标检测的精度(核心思想在于生成固定长度Descriptor)。SPP(Spatial Pyramid Pooling,空间金字塔池化)是一种非常有效的多分辨策略,对目标形变非常鲁邦。
2. 从目标检测RCNN入手
RCNN(Region proposal with Convoluton Neural Network,RCNN)进行目标检测的思路:CNN作为特征提取器,然后进行BoundingBox回归。但是RCNN对于每一个区域候选(Region Proposed)都需要首先将图片放缩(比例/非比例)到固定的尺寸(224*224),然后为每个区域候选提取CNN特征。整个过程是存在一些性能瓶颈: