#GKGNet

多标签分类遇上图卷积网络ViG

本文提出了第一个完全图卷积模型,基于分组K近邻的图卷积网络GKGNet,该模型在灵活且统一的图结构中,同时建模语义标签嵌入与图像块之间的连接。实验表明,GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了最先进的性能。

多标签分类是一个具有挑战性的任务,旨在预测单个图像中的多个对象标签,同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络CNN和视觉转换器Transformer在将图像处理为规则的像素块网格(patch)方面取得了成功,但这些表示对于捕捉不规则和不连续的兴趣区域来说并不理想。在这项工作中,我们提出了第一个完全图卷积模型,基于分组K近邻的图卷积网络(Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet),该模型在灵活且统一的图结构中,同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息,我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明,GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了最先进的性能。

论文链接: https://arxiv.org/abs/2308.14378

代码地址: https://github.com/jin-s13/GKGNet

灵活图结构解决多标签分类任务

51c视觉~合集13_视觉AI

图1 CNN, Transformers, GCN对图片特征的提取

在多标签分类中,与某个标签相关的区域可能是复杂的,甚至是不连续的。例如,为了识别图像中狗的存在,需要关注多个区域,因为可能存在多只狗。卷积神经网络(CNN)将图像视为像素网格,并根据空间位置应用滑动卷积核。CNN可以很好地处理连续区域,但局限的感受野让它难以适应不规则的兴趣区域。

相比之下,视觉转换器(Vision Transformer)将图像视为一系列图像块(patch),具有全局感受野,并通过全局注意力从图像块中提取视觉特征。然而,对于小尺寸目标对象,大多数图像块属于背景,因此它们的注意力得分之和不能忽略,让特征提取受到来自背景噪声的干扰。而图方法(如 Vision GNN)将视觉图像块视为节点,通过将图像表示为图结构Graph来形成一种灵活的特征提取方法。

具体而言:

1. 感受野是全局的,根据语义特征相似性寻找邻居节点,能够灵活在全图寻找目标区域。

2. 特征传递是局部的,只发生在邻居节点之间。减少了背景区域的干扰。

这让图结构可以很好的适应目标区域的分布复杂,大小不一的难点。

方法介绍

51c视觉~合集13_视觉AI_02

图2 GKGNet网络结构

在这项工作中,我们提出了第一个用于多标签分类任务的完全图卷积网络(GCN),即基于分组K近邻的图卷积网络GKGNet。GKGNet将图像块和目标标签都视为图节点,并在统一的图结构中处理它们。

GKGNet构建了两种不同的图:一种是跨层次图(cross-level),建模目标标签和图像块之间的标签-对象关系;另一种是图像块层次图(patch-level),处理和更新图像块之间的图像特征。

这样,GKGNet能够自适应地整合兴趣补的特征,即使在存在不规则和不连续区域的情况下,也能有效更新视觉特征和标签嵌入的统一图表示。

如图2所示,图像块节点和标签节点通过四个分层阶段进行处理。

51c视觉~合集13_视觉AI_03

图3 KNN无法自适应地处理不同尺度的对象

图构建是GCN成功的关键。但是目前广泛使用的K近邻(KNN)构图方法只能会选择固定数目的邻居节点,无法自适应地处理不同尺度的对象。如图3,邻居数量K控制了提取和聚合区域特征的区域大小。过大的K会导致特征过度平滑,并涉及无效背景的干扰,而过小的K又难以选取足够的目标区域,影响特征提取和消息传递。

51c视觉~合集13_视觉AI_04

图4 Group KNN的分组和可重叠策略

因此,我们提出了基于Group KNN的GCN(Group KGCN)模块,该模块将节点特征拆分为多个组,并在每个组之间构建连接,如图4。通过设计每个组选择的邻居节点可以重叠,Group KNN方法允许目标节点与动态数量的源节点进行交互,并处理不同尺度的对象。

利用不同的组允许目标节点与不同数量(从𝐾个到𝐾 × 𝐺个)的源节点建立连接。如图4所示,子目标节点𝐷11连接到子源节点𝑆11 和𝑆21,而子目标节点𝐷12连接到子源节点𝑆31和𝑆41。这使得目标节点𝐷1能够与四个源节点进行交互:𝑆1,𝑆2,𝑆3 和 𝑆4。这种情况通常发生在目标节点涉及到更广泛的兴趣区域时, 例如大型目标对象。

相反,当不同组的邻居重叠时,所选择的源节点数量会减少。例如,𝐷2的两个子目标节点都连接到源节点𝑆2,导致仅与三个源节点进行交互:𝑆1,𝑆2和𝑆4。这种情况通常发生在目标节点仅涉及到小的兴趣区域时,例如小型目标对象,从而有助于在信息传递过程中绕过无关信息。

最终基于Group KNN的Group KGCN模块如图5所示。

51c视觉~合集13_视觉AI_05

图5 Group KGCN模块结构

实验结果

GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了SOTA的性能。

51c视觉~合集13_视觉AI_06

表1 MS-COCO数据集结果

51c视觉~合集13_视觉AI_07

表2 VOC数据集结果

下表3证明了GKGNet模型各个组件的效果,P、C和G分别代表Patch-Level Graph、Cross-Level Graph和Group KNN。

51c视觉~合集13_视觉AI_08

表3 GKGNet模型组件的效果(MS-COCO数据集)

为了探索Group KNN在通用图像识别中的效果,我们将 Group KNN 应用于经典的图像分类模型ViG-Tiny,并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等数据集上进行实验,可以看到top-1准确率显著提高。

51c视觉~合集13_视觉AI_09

表4 Group KNN在通用图像识别上的性能

可视化展示

51c视觉~合集13_视觉AI_10

图6 GKGNet的可视化

在图6的可视化中,彩色色块表示图像块与标签的连接。我们可以观察到Group KNN有效地适应了对象的大小。对于较小的对象,最终选择的标签节点集中在包含目标对象的区域。对于较大的对象,最终选择的标签节点覆盖了足够的区域,并关注对象的不同部分。此外,通过利用不同的子组,Group KNN灵活地提取共现关系,例如汽车和交通信号灯之间的关系。

总结

在本文中,我们提出了GKGNet,一种新颖的全图卷积模型,用于多标签图像识别任务。我们首次研究了视觉特征和标签嵌入的统一图表示。提出的Group KGCN模块用于动态图构建和消息传递,有效处理不同对象的尺度变化,从不同角度捕捉信息,并建模不同对象的共现关系。在MS-COCO和VOC2007等公共基准数据集上的综合实验验证了我们方法的有效性。我们希望将多模态特征与动态图表示相结合的理念能够广泛应用,并引起社区对这一有前途方向的关注。未来,我们计划将我们的工作扩展到更广泛的基于图学习的问题,如点云和社交网络。视觉AI 开发板商城 天皓智联 whaoosoft aiot -- gitee可找到我