基于语义图嵌入的跨模注意多标签分类
摘要
多标签图像和视频分类是计算机视觉中最基本但又极具挑战性的任务.主要的挑战在于捕获标签之间的空间或时间依赖,并发现每个类的区别特征的位置.为了克服这些挑战,我们提出利用交叉模态注意和语义图嵌入来进行多标签分类.在构造标签图的基础上,提出了一种基于邻接的相似图嵌入方法来学习语义标签嵌入,这种方法能明确利用标签之间的关系。在标签嵌入的指导下,生成了新的交叉模态注意图。在两个多标签图像分类数据集(MS-COCO和NUS-WIDE)上的实验表明,我们的方法优于现有的其他先进技术。此外,我们在一个大型的多标签视频分类数据集(YouTube-8M段)上验证了我们的方法,评估结果证明了我们方法的泛化能力。
1、介绍
多标签图像分类(MLIC)和多标签视频分类(MLVC)是计算机视觉中的重要任务,其目标是预测图像或视频中出现的一组类别.与单标签分类(例如给图像或视频分配一个标签)相比,多标签分类在互联网搜索、安全监控、机器人等许多应用中更有用.由于MLIC和MLVC是非常相似的任务,在接下来的技术讨论中,我们将主要关注MLIC,它的结论可以自然地移植到MLVC中.
近年来,随着深度卷积神经网络(deep Convolutional Neural Networks, CNN)的发展,单标签图像分类取得了很大的成功。但是,这种幼稚的扩展通常会提供较差的性能,因为会忽略多个标签之间的语义依赖性,这对于多标签分类尤其重要.因此,许多先前的工作旨在通过递归神经网络(RNN)捕获标签关系。 但是,这些方法没有对语义标签和图像区域之间的显式关系建模,因此它们缺乏充分利用图像中空间依赖性的能力。
MLIC的另一个解决方案是引入目标检测技术。部分方法使用额外的边界框标注提取区域建议,这种标注比简单的图像级标注昂贵得多,其他多种方法应用注意机制自动聚焦于感兴趣的区域。但是,注意区域的习得只能通过图像层面的监督,缺乏明确的语义指导(无法知道习得的注意区域是否是对应标签真实的对应区域)。针对上述问题,我们认为一个有效的多标签分类模型应该具备两个能力:(1)根据空间上下文捕获多标签之间的语义依赖;(2)用更多的语义引导定位感兴趣的区域。
本文提出了一种新的基于图嵌入的交叉模态注意网络,从而在搜索可区分区域的同时标注空间语义依赖关系。首先,提出了一种新的基于邻接的相似图嵌入(ASGE) 方法,该方法捕获了标签之间丰富的语义关系。其次,学习后的标签嵌入将在交叉模态指导方面指导注意区域的生成,本文将其称为交叉模态注意(Cross-modality Attention, CMA),与传统的自我注意方法相比,我们的attention机制明确地引入了丰富的标签语义关系。得益于CMA机制,我们的注意区域更有意义和更有辨别力。因此,它们在抑制噪声或背景信息对分类产生影响的同时捕获了更多有用的信息。本文的主要贡献简述如下:
∙ \bullet ∙ 我们提出了一种ASGE方法来学习语义标签嵌入和显式利用标签相关性。
∙ \bullet ∙ 我们提出了一种新颖的注意范式,即交叉模态注意,其中注意图是通过利用更多先验语义信息生成的,从而产生了更有意义的注意图。
∙ \bullet ∙ 本文提出了一种结合CMA和ASGE模块的多标签分类总体框架,如图1和图2所示,该框架可以捕获空间和语义空间之间的依赖关系,有效发现识别特征的位置。我们在用于MLIC任务的MS-COCO数据集和NUS-WIDE数据集上评估了我们的框架,并且在两者上均实现了最新的性能。 我们还在MLVC的YouTube-8M数据集上评估了我们提出的方法,该方法也取得了出色的性能。
2.相关工作
最近,MLIC的任务引起了越来越多的关注。解决这个问题最简单的方法是独立对待每个类别,然后将任务直接转换为一系列二分类任务。然而,这种技术受到的限制是不考虑标签之间的关系。最新的工作(Chen et al. 2019)通过图卷积网络探索了标签依赖关系。但是,上述方法都没有考虑到语义标签与图像内容之间的关联,并且没有充分利用图像的空间上下文。
在MLIC任务中,视觉概念与图像局部区域高度相关。为了更好地挖掘局部的信息,一些研究引入区域提案技术,以关注信息区域,类似地,Zhu等人(2017)提出了空间正则化网络来生成标签相关的注意图,并通过注意图隐含地捕获潜在关系,上述注意方法的优点是不需要额外的步骤来获取区域方案,但注意区域的习得仅通过图像层面的监督,缺乏明确的语义指导,而本文利用标签语义嵌入,将语义引导引入到注意图的生成中,极大地提高了预测性能.
本文通过图嵌入学习标签语义嵌入,这是一种旨在学习图结构数据表示的技术。这些方法的一个主要假设是图上相邻节点的嵌入是相似的,而在我们的任务中,我们还要求非相邻节点的嵌入是相互排斥的,因此,我们提出了一种ASGE方法,可以进一步分离非相邻节点的嵌入.
3.方法
我们的MLIC和MLVC方法的总体框架分别如图1和图2所示:流程包括以下几个阶段:首先,以标签图作为ASGE模块的输入来学习标签嵌入,从而对标签之间的语义关系进行编码。其次,将学习到的标签嵌入和视觉特征一起输入CMA模块,以获得按类别分类的注意图。最后,分类注意图被用来加权平均每个类别的视觉特征。我们将详细描述我们的两个关键组件ASGE和CMA。
图1:MLIC任务模型的总体框架,标签嵌入由ASGE(基于邻接的相似图嵌入)模块获得。首先利用骨干网络提取视觉特征,然后通过CMT模块将其投影到语义空间中,得到投影的视觉特征,将学习到的标签嵌入和投影的视觉特征一起输入到CMA模块中,以生成按类别分类的关注图,其中每一个都用于对视觉特征进行加权平均并生成按类别聚合的特征。 最后,将分类器应用于最终预测
3.1 基于邻接的相似度GE(ASGE)
如第1节所述,标签之间的关系在多标签分类任务中起着至关重要的作用。然而,如何表达这种关系是一个有待解决的问题,我们的直觉是标签之间的共现属性可以用联合概率来描述,这种联合概率适合于标签关系的建模.但是,联合概率容易受到类别失衡的影响。取而代之的是,我们利用标签之间的条件概率来解决此问题,这是通过将联合概率除以边际概率来归一化而获得的。基于此,可以构造标签图,其中标签为节点,标签之间的条件概率为边缘权重。受到图形嵌入方法在自然语言处理(NLP)任务中的流行应用的启发,其中将学习到的标签嵌入作为附加信息输入网络,我们提出了一种新颖的ASGE方法来对标签关系进行编码。
我们正式地定义这个图为 G = ( V , G ) \mathcal{G}=(V,G) G=(V,G),其中 V = { v 1 , v 2 , . . . v N } V=\{v_1,v_2,...v_N\} V={
v1,v2,...vN}表示 N N N个节点的集合且 C C C表示边。图 G \mathcal{G} G的邻接矩阵 A = { A i , j } i , j = 1 N A=\{A_{i,j}\}_{i,j=1}^N A={
Ai,j}i,j=1N包含与每条边相关的非负权值.具体来说, V V V是标签的集合, C C C是任意两个标签之间的连接集合,邻接矩阵 A A A是通过设置 A i j = P ( v i / v j ) A_{ij} = P (v_i / v_j) Aij=P(vi/vj),得到的条件概率矩阵,其中 P P P是通过训练集来计算的( p ( v j ∣ v i ) p(v_j|v_i) p(vj∣vi)表示在标签 v i v_i vi出现的情况下, v j v_j vj出现的概率),由于 p ( v i ∣ v j ) ≠ p ( v j ∣ v i ) p(v_i|v_j)≠p(v_j|v_i) p(vi∣vj)=p(vj∣vi),也就是 A i j ≠ A j i A_{ij}≠A_{ji} Aij=Aji,为了获得更好的优化,我们将 A A A对称化:
位置为 ( i , j ) (i,j) (i,j)时, A A A表示在 j j j标签出现时 i i i标签出现的概率, A T A^T AT表示在 i i i标签出现时 j j j标签出现的概率,则公式中 A ′ A' A′将两个矩阵进行平均获得一个对陈化矩阵。
为了捕获由图结构定义的标签相关性,我们应用神经网络将每个标签 o i o_i oi的独热(one-hot)嵌入映射到语义嵌入空间并产生标签嵌入:
e i e_i ei表示标签 i i i的标签嵌入.其中 Φ \Phi Φ表示由三层全连接层组成的神经网络(全连接层本质就是由一个特征空间线性变换到另一个特征空间,目标空间的任一维,也就是隐层的一个 cell,都认为会受到源空间的每一维的影响。可以说,目标向量是源向量的加权和),然后进行批归一化(BN)和ReLU激活。我们的目标是实现最优的标签嵌入集合 E = { e i } i = 0 N E=\{e_i\}_{i=0}^N E={
e