论文相关内容
本文中解决多标记图像分类问题的方法:
深度卷积神经网络(CNN)已经证明了单标签图像分类的先进性能,并且已经在将CNN方法应用于多标签图像分类方面取得了各种进展,这要求在一个镜头内标注对象、属性、场景类别等。目前最先进的多标签图像分类方法利用了图像中的标签依赖关系,在全局范围内大大提高了标签的能力。然而,由于全局视觉特征的局限性,预测小对象和视觉概念仍然具有挑战性。本文提出了一种区域潜在语义依赖模型(RLSD)来解决这个问题。所使用的模型包括完全卷积定位架构,以定位可能包含多个高度依赖标签的区域。局部区域被进一步发送到递归神经网络,以表征潜在区域级的语义依赖关系。
本文主要思想和模型:
本文模型的大致过程,1、定位层和LSTM的预训练,2、通过CNN提取图像特征,3、把这些特征送到RPN(region proposal network)类的定位层用来定位可能包含多个语义依赖标签的图像的区域,4、对这些区域进行子采样并使用双线性插值取代ROI池化进行region proposal的提取,5、局部图像经过全连接层编码后再进一步发送到LSTM来得到多类预测,6、最后通过最大池化层来融合所有局部输出作为最终的预测。
总结
相关背景:CNN在单标签图像分类和多标签图像分类上的应用和利用图像中的标签依赖进行多标签图像分类的优点及其存在的问题。
问题是什么:进行多标签图像的分类及更好的预测小对象和视觉概念。
现有解决方案:关于多标签图像分类的有WARP、CNN-RNN、CNN-LSTM等方法。
作者的核心思想、创新点在哪里:本文提出了RLSD模型包括全卷积定位架构和循环神经网络,其可以捕捉局部级的标签依赖,可以更好的预测小对象和视觉概念
通过什么样的实验进行验证:在MS COCO,NUS-WIDE, PASCAL VOC 2012 和2007数据集上使用多个对比算法和查全率、查准率、AP、mAP、F1和AUC等评价指标进行了多组实验,证明了本文模型预测小对象和视觉概念的优势。
对我的启发:做研究新问题的提出毋庸置疑也是极其重要的。