Introduction
细粒度图像识别 (fine-grained image recognition),即 精细化分类 。
精细化分类
识别出物体的大类别(比如:计算机、手机、水杯等)较易,但如果进一步去判断更为精细化的物体分类名称,则难度极大。
最大的挑战在于,同一大类别下 不同 子类别 间的 视觉差异 极小。因此,精细化分类 所需的图像分辨率 较高。
目前,精细化分类的方法主要有以下两类:
基于图像重要区域定位的方法:该方法集中探讨如何利用弱监督的信息自动找到图像中有判别力的区域,从而达到精细化分类的目的。
基于图像精细化特征表达的方法:该方法提出使用高维度的图像特征(如:bilinear vector)对图像信息进行高阶编码,以达到准确分类的目的。
RA-CNN
MSRA通过观察发现,对于精细化物体分类问题,其实形态、轮廓特征显得不那么重要,而细节纹理特征则起到了主导作用。
因此提出了 “将判别力区域的定位和精细化特征的学习联合进行优化” 的构想,从而让两者在学习的过程中相互强化,也由此诞生了 “Recurrent Attention Convolutional Neural Network”(RA-CNN,基于递归注意力模型的卷积神经网络)网络结构。
RA-CNN 网络可以更精准地找到图像中有判别力的子区域,然后采用高分辨率、精细化特征描述这些区域,进而大大提高精细化物体分类的精度:
该项工作已经被CVPR 2017接收。
[1] 基于递归注意力模型的卷积神经网络:让精细化物体分类成为现实
[2] RA-CNN