基于卷积网络的多标签图像识别
文章是来自2019年CVPR
摘要
多标签图像识别的任务是预测图像中出现的一组目标标签。由于目标通常同时出现在图像中,为了提高识别性能,需要对标签依赖进行建模。为了捕获和探索这种重要的依赖关系,我们提出了一种基于图卷积网络(Graph Convolutional Network GCN)的多标签分类模型。该模型在对象标签上构建了一个有向图,其中每个节点(标签)用标签的单词嵌入表示,GCN学习了如何将这个标签图映射到一组相互依赖的对象分类器中,这些分类器应用于由另一子网提取出来的图像描述符,使整个网络具有端到端可训练性。此外,我们提出了一种新的重新加权方案,以建立有效的标签相关矩阵来指导GCN节点间的信息传播。在两个多标签图像识别数据集上的实验表明,我们的方法明显优于现有的其他方法。此外,可视化分析表明,通过我们模型学习的分类器保持了有意义的语义拓扑。
1.介绍
多标记图像识别是计算机视觉中一项基本而实用的任务,其目的是预测图像中存在的一组对象。它可应用于医学诊断识别[Chest X-rays classification: A multi-label and fine-grained problem]、人的属性识别、零售结账识别等多个领域。与多类图像分类相比,由于输出空间的组合特性,多标签任务更具挑战性。由于物体在物理世界中通常是共现的,因此多标签图像识别的关键是建立标签依赖关系模型,如图1所示:
图1多标签图像识别中,我们在目标标签上建立一个有向图来模型标签的依赖关系,其中 L a b e l A → L a b e l B Label_A →Label_B LabelA→LabelB表示当 L a b e l A Label_A LabelA出现的时候, L a b e l B Label_B LabelB很可能会出现,但反过来可能就不正确了。当出现滑板、领带,网球拍和网球时,很可能出现人(因为人使用这些物品),并且网球拍和网球也一般是同时存在的,但是人出现了这些东西也未必出现。
解决多标记识别问题的一种幼稚的方法是将多标记问题单独处理,然后将多标记问题转化为一组二值分类问题来预测每个感兴趣的目标是否出现,得益于深度卷积神经网络(CNNs)在图像单标签分类方面取得的巨大成功,二元解决方案的性能得到了极大的提高,但是,由于忽略对象之间复杂的拓扑结构,这些方法在本质上受到了限制。这激发了对各种方式获取和探索标签相关性方法的研究。一些基于概率图模型或递归神经网络(RNNs)的方法被提出来显式地建模标签相关性,前者将多标签分类问题表述为一个结构推理问题,由于计算复杂度高,可能存在可扩展性问题;而后者根据预定义或学习的某些顺序,以顺序的方式预测标签。另一种研究通过注意机制隐式地对标签相关性建模。他们考虑图像中被关注区域之间的关系,可以视为局部相关性,但仍然忽略了标签之间的全局相关性,而全局相关性需要从单个图像以外的知识中推断出来。
在本文中,我们提出了一种新颖的基于GCN的模型(又名ML-GCN)来捕获多标签图像识别的标签相关性,该属性具有可扩展性和灵活性,这是竞争方法无法实现的。我们建议通过基于GCN的映射函数从先前的标签表示形式(例如单词嵌入)中学习相互依赖的对象分类器,而不是将对象分类器视为要学习的一组独立参数向量,接下来,将生成的分类器应用于由另一个子网生成的图像表示,以实现端到端训练。 由于嵌入到分类器的映射参数在所有分类(即图像标签)之间共享,因此所有分类器的梯度都会影响基于GCN的分类器生成函数,这隐式地为标签相关性建模。此外,为了显式地建模用于分类器学习的标签依赖关系,我们设计了有效的标签相关矩阵,以指导GCN中节点之间的信息传播,具体而言,我们提出了一种重新加权方案,以平衡节点及其邻域之间的权重以进行节点特征更新,从而有效缓解过度拟合和过度平滑的情况。在两个多标签图像识别数据集上的实验表明,我们的方法明显优于现有的新方法。此外,可视化分析表明,通过我们的模型学习的分类器保持了有意义的语义结构。
本文的主要贡献如下:
∙ \bullet ∙ 我们提出了一种新颖的端到端可训练多标签图像识别框架,该框架使用GCN将标签表示形式(例如单词嵌入)映射到相互依赖的对象分类器.
∙ \bullet ∙ 我们对GCN相关矩阵的设计进行了深入研究,提出了一种有效的重新加权方案来同时缓解过拟合和过平滑问题。
∙ \bullet ∙ 我们在两个基准多标签图像识别数据集上评估了我们的方法,我们的方法始终取得了优于之前的竞争方法的性能
2.相关工作
近年来,ImageNet、MSCOCO和PASCAL VOC等大规模手标数据集的建立,以及深度卷积网络的快速发展,使得图像分类的性能得到了快速发展。在多标签图像识别的深度卷积网络的扩展方面,人们做了大量的工作.
多标签识别的一个简单方法是为每个类/标签训练独立的二进制分类器。但是,该方法没有考虑标签之间的关系,预测的标签数量会随着类别数量的增加而呈指数增长,例如,如果一个数据集包含20个标签,那么预测的标签组合数量可能超过100万( 2 20 2^{20} 220),此外,该基线方法实质上是通过忽略对象之间的拓扑结构来限制的,这对于对象的共现模式可能是重要的正则化器。 例如,标签的某些组合几乎不可能出现在物理世界中。
为了规范预测空间,许多研究者试图捕获标签依赖关系。Gong等人使用一种基于排序的学习策略训练深度卷积神经网络进行多标签图像识别,发现加权近似排序损失效果最好。此外,Wang等利用递归神经网络(RNNs)将标签转换为嵌入的标签向量,从而利用标签之间的相关性。此外,在多标签识别任务中,注意机制也被广泛应用于发现标签相关性,Zhu等人提出了一种基于加权注意图的空间正则化网络来捕获这些多个标签的语义和空间关系.
与上述的结构学习方法相比,图在标签相关性建模方面更加有效。在本文中,我们利用图的结构来捕获和探索标签的相关性,具体来说,基于图,我们利用GCN在多个标签之间传播信息,从而学习每个图像标签的相互依赖分类器,这些分类器从标签图中吸收信息,进一步应用到全局图像表示中,用于最终的多标签预测,这是评价标签共现性的一种更明确的方法。实验结果表明,该方法是有效的,并能以端到端的方式训练模型
3.方法
在这一部分中,我们详细介绍了多标签图像识别的ML-GCN模型,首先介绍方法动机,然后,我们介绍了GCN的一些初步知识,然后详细说明了所提出的ML-GCN模型和相关矩阵构造的重加权方案
3.1动机
如何有效地捕获目标标签之间的关联,并探索这些标签之间的关联来提高分类性能,对于多标签图像识别都是非常重要的,本文采用图的形式对标签间的相互依赖关系进行建模,这是一种在标签空间中捕获拓扑结构的灵活方法,具体来说,我们将图中的每个节点(标签)表示为标签的单词嵌入,并建议使用GCN直接将这些标签嵌入映射到一组相互依赖的分类器中,这些分类器可以直接应用于图像特征进行分类。两个因素促使我们设计基于GCN的模型。首先,由于嵌入到分类器的映射参数在所有类之间共享,因此学习到的分类器可以在单词嵌入空间中保留弱语义结构,因为在此空间中,语义相关概念彼此接近,同时,所有分类器的梯度会影响分类器的生成函数,从而隐式地建模标签依赖关系。其次,我们根据标签的共现模式设计了一种新的标签关联矩阵,通过GCN显式地建模标签依赖关系,通过该矩阵,节点特征的更新将吸收相关节点(标签)的信息。
3.2 图卷积网络概述
基本思想是通过在节点之间传播信息来更新节点表示,与标准卷积不同的是,标准卷积作用于图像中的局部欧几里得结构,GCN的目标是学习图 G \mathcal{G} G上的函数 f ( ⋅ , ⋅ ) f(·,·) f(⋅,⋅),它采用特征描述 H l ∈ R n × d H^l∈\mathbb{R}^{n×d} Hl∈Rn×d以及相应的相关矩阵 A ∈ R n × n A∈\mathbb{R}^{n×n} A∈Rn×n为输入(其中 n n n为节点数, d d d为节点特征的维数,也就是标签嵌入后的特征维数),更新节点特征为 H l + 1 ∈ R n × d ′ H^{l+1}∈\mathbb{R^{n×d'}} Hl+1∈Rn×d′,每一个GCN层都可以写成一个非线性函数:
通过卷积运算, f ( ⋅ , ⋅ ) f(·,·)