基于标签图叠加的多标签分类
摘要
图像或视频总是包含多个对象或动作。由于深度学习技术的快速发展,多标签识别已经实现了良好的性能.近年来,图卷积网络(GCN)被用来提高多标签识别的性能,然而,标签相关建模的最佳方式是什么,以及如何通过标签系统感知来改进特征学习,目前还不清楚.本文提出了一种标签图叠加框架,从以下两个方面对传统的多标签识别GCN+CNN框架进行改进.首先,通过将基于统计共现信息构建的标签图叠加到根据标签知识先验而构建的图中,对标签相关性进行建模,然后将多层图卷积应用于最终的叠加图以进行标签嵌入抽象。其次,我们建议利用整个标签系统的嵌入来更好地学习表示。 详细地,在浅层,中间层和深层添加GCN和CNN之间的横向连接,以将标签系统的信息注入到主干CNN中,以在特征学习过程中进行标签感知。在MSCOCO和Charades数据集上进行了大量的实验,结果表明我们提出的解决方案可以极大地提高识别性能,并取得了新的先进的识别性能。
1、介绍
多标签是图像或视频的自然属性,通常情况下,图像或视频包含多个对象或动作,在计算机视觉领域,多标签识别是一项基础性和实践性的任务,越来越受到人们的关注,鉴于深卷积网络给单标签图像/视频分类带来的巨大成功,多标签识别通过天真地将每个标签作为一个独立的个体,运用多重二值分类来预测标签是否出现,可以达到很好的效果。然而,我们认为,这一任务应考虑以下两个方面。
首先,标签和先验在图像或视频中同时出现。如图1所示,很有可能,运动球和网球拍同时出现,一个男人“坐在沙发上”同时“看电视”。,那么,一个问题自然提出了,如何建模标签之间的变化,以利用这样的先验,以获得更好的性能?其次,给定输入 X X X,预测其标签的常见做法可以表述为两阶段映射 y = F 1 ∘ F 0 ( X ) y=F_1 \circ F_0(X) y=F1∘F0(X),其中 F 0 : X → f F_0:X\to f F0:X→f表示CNN特征提取过程, F 1 : f → y F_1:f\to y F1:f→y表示从特征空间到标签空间的映射,标签只在训练阶段的最后阶段明确参与,因此,进一步的问题是,对于一个特定的多标签分类任务,相互关联的标签空间是否以及如何能够显式地帮助特征学习过程 F 0 F_0 F0?
图1表示多标签数据集中的标签关系示例。(a)举例说明了MS-COCO数据集上运动球和网球的共现率,我们可以看到网球和运动球共现的频率高达0.42。类似地,(b)展示了一个坐在沙发上看电视的例子,共现概率也有0.2
最近,图卷积网络,又名GCN,在图的顶点之间的关系建模方面取得了巨大成功。(Chen et al. 2019)利用该工具对多标签识别的标签系统之间的关系进行建模。同时利用标签共现的频率简单地构建标签图。另一个方向是通过对图像局部区域的关注来隐式地建立模型标签相关性,如(Learningspatial regularization with image-level supervisions for multi-label image classification.),此外,上述解决方案都遵循传统的两阶段映射实践,在学习特征空间时忽略了标签系统的整体结构。
本文试图为这两个问题找到可能的答案。为此,我们提出了一种称为KSSNet的标签图叠加深度卷积网络。叠加意味着在我们的框架中有以下两个折叠:(1)为了按照GCN范式对标签共现的先验进行建模,我们提出将基于知识的图叠加到基于统计的图中来构建最终的标签系统关系图,而不是单独使用标签共现的统计量来构建标签系统关系图,(2)为了更好地学习锚定在标签结构上的特定多标签识别任务的特征表示,我们设计了一种新的CNN和GCN叠加网络来提取标签结构感知描述符.具体来说,我们构造两个邻接矩阵 A S ∈ R N × N A_S ∈ R^{N × N} AS∈RN×N和 A K ∈ R N × N A_K ∈R^{N × N} AK∈RN×N,分别由共现统计和一个名为ConceptNet的知识图(An open multilingual graph of general knowledge)构造,所有节点(即标签)的初始嵌入是从ConceptNet中提取的,最后的邻接矩阵是一个叠加的版本。然后在最终的叠加图上应用多层图卷积来建模标签相关性,此外,有别于传统图像增强CNN标签的解决方案,利用信息系统在最终的识别阶段,我们增加横向联系GCN在CNN和浅,中间和深度层注入信息标签的系统骨干CNN标签意识为目的的功能学习。此外,与在最终识别阶段利用标签系统信息的传统图扩展CNN解决方案不同(传统方法是先进行CNN提取特征,然后用图训练一个标签分类器,再将特征与分类器进行矩阵乘积最终得到一个标签分数的预测),我们在浅层,中层和深层添加了CNN和GCN之间的横向连接,以将标签系统的信息注入到主干CNN中,以进行特征学习中的标签感知.结果表明,我们的解决方案在MS-COCO和Charades中获得了6.4%和12.0%的绝对mAP改进,并且计算成本非常有限,与普通CNN相比。我们的模型实现了新的最先进的技术,并在MS-COCO的mAP和Charades中分别比当前的最先进的解决方案高出1.3%和2.4%.
2.相关工作
许多已有的多标签分类研究都提出了捕捉标签关系以提高分类性能的方法。标签的共现可以用概率图模型很好地表述,在文献中,基于这一数学理论有很多方法对标签进行建模,为了解决概率图模型的计算代价负担问题,基于神经网络的求解方法近年来越来越流行,有一些工作是通过利用注意力机制来建立标签关系,在(Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification)中,使用图像区域级空间注意图或注意语义级标签相关建模来提高最终识别性能。
图被证明是标签结构建模的有效方法,我们的工作主要与(Chen et al. 2019)中提出的方法有关,该方法使用GCN在标签之间传播信息,并在最终的分类阶段将标签信息与CNN特征合并,与此不同的是,我们的工作是通过将统计共现信息构建的图叠加到使用知识先验构建的图中来构建GCN。将标签信息吸收到骨干网络中,以便更好地学习特征
3、方法
在本文中,我们提出了一种用于多标签分类的知识和标签图叠加框架。 我们提供了一种新的标签相关建模方法,即叠加统计标签图和知识先验标签图。通过在主干CNN的浅层,中层和深层吸收GCN生成的标签结构信息,设计出更好的特征学习网络架构,我们称我们的模型为KSSNet(知识和统计叠加网络),以具有用于多标签视频分类的Inception-I3D骨干的KSSNet为例,我们在图2中显示了其框图。当涉及到多标签图像分类时,通过将GCN与先进的2D CNN(如ResNet)叠加,可以很容易地构建出框架,在接下来的小节中,我们首先详细介绍标签图是如何构造和叠加的,然后展示我们提出的GCN和CNN叠加是什么。
图2:具有Inception-I3D骨干的KSSNet概述。 “ LC”是我们提出的横向连接,“ S”和“ L”分别表示Sigmoid和LeakyReLU操作。 “INc.” 是I3D中的Inception块(增加网络深度和宽度的同时减少参数)。 KSSNet将视频和初始标签嵌入作为输入,并输出这些视频的预测标签。 “ GConv”是“ Graph Convolution”的缩写
图解: 首先输入原始的图片 x ( 0 ) x^{(0)} x(0),通过卷积池化获得特征 x ( 1 ) x^{(1)} x(1),同时输入一个初始标签嵌入矩阵(标签映射成具有潜在关系的词向量矩阵) E ( 0 ) E^{(0)} E(0),然后通过一个图卷积网络获得 E ( 1 ) E^{(1)} E(1),将 x ( 1 ) x^{(1)} x(1)与 E ( 1 ) E^{(1)} E(1)通过LC进行横向连接获得图片特征与标签特征融合的输出 y ( 1 ) y^{(1)} y(1),接着将此输入扔进池化层和Inception层获得输出 x ( 2 ) x^{(2)} x(2),同时又将图网络中获得的 E ( 1 ) E^{(1)} E(1)经过LeakyReLU操作后与 x ( 2 ) x^{(2)} x(2)进行LC操作,后续操作类似,最终获得GCN网络中的 E ( 4 ) E^{(4)} E(4)以及CNN网络中的 x ( 4 ) x^{(4)} x(4),并对 x ( 4 ) x^{(4)} x(4)进行平均池化(对局部接受域中的所有值求均值),对 E ( 4 ) E^{(4)}