作者丨白亚龙
单位丨京东AI研究院研究员
研究方向丨表示学习、图像识别
基于深度卷积图像识别的相关技术主要专注于高层次图像特征的理解,而对于相似物体之间的细节差异和具有判别意义的区域(discrimination region)的定位和识别上仍有较大提升空间。而具有判别意义的局部区域的精细特征表示恰恰是解决精细图像分类任务的关键。例如,对于『花』的分类、『鸟』的分类,人类专家可以凭借其自身专业知识仅根据目标局部特征就可以区分细微差别的目标。
受此启发,本文提出了一种全新的基于“解构-重构”(Destruction and Construction Learning, DCL)的图像分类学习框架,来强化神经网络对于“专家”知识的学习。
在 DCL 框架中,除去基本的标准分类骨干网络(Backbone)以外,我们引入了两个全新的模块:解构模块以及重构模块。其中解构模块通过区域混淆机制(Region Confusion Mechanism, RCM)将图像中物体的结构信息进行“破坏”,即将原始图片划分为多个子区域,并对其进行随机打乱。通过将无物体结构信息的信号输入到骨干网络中的方式,迫使分类网络必须更多地关注具有判别意义的局部子区域来发现差异。
同时为了避免 RCM 引入的噪声视觉特征模板,我们使用能区分原始图像和破坏图像的对抗性损失,对噪声图像特征加以区分。最后,经过骨干网络得到的图像特征信息,会再一次经过“重构”模块,该模块使用一个区域对齐网络对被破坏掉的图像中的局部区域之间的语义相关性进行建模,试图恢复局部区域原本的空间布局(结构重建)。
通过这种自监督信号,我们在不需要使用额外监督信号的情况下,强化了分类网络对于具有判别意义子区域的特征表示学习。最终,DCL 在多个精细物体识别任务中取得 state-of-the-art 的性能,且在 CVPR 2019 FGVC 比赛中获得两项第一名(商品识别、蝴蝶蛾类识别)以及一项第二名(菜品识别)。
另外,值得注意的是,我们的方法非常轻量化,只在训练阶段两个新引入模块只带来了少量的可学参数,且在测试(实际模型部署、生产环境下)阶段只激活基本分类网络分支,非常具有实用性。
另外我们还将 DCL 算法拓展到通用物体识别任务中。实验结果表明,在只新增 8092 个参数(相当于 ResNet-50 的 0.03% 的参数规模)的情况下,基于 DCL 的方法在 ImageNet-1K 任务上可以将 ResNet50 的性能提升至 ResNet-101 的水准。
代码:https://github.com/JDAI-CV/DCL
引言
在之前的工作中,为了提升精细类目上的物体识别模型的性能,研究人员提出了多种不同的方法。这些方法大致可以被分为两类:
基于目标物体检测以及目标物体分类的分步识别框架
基于注意力模型的识别框架