[ACM MM 2022] SIM-Trans: Structure Information Modeling Transformer for FGVC

Introduction

  • In this paper, we propose the structure information modeling transformer (SIM-Trans) that introduces the object structure information into vision transformer for boosting the discriminative feature learning to contain both the appearance and structure information.
  • 同时作者也指出了在 FGVC 任务上,ViT 相比 CNN 的优势:“the stacked convolution and pooling operations bring both the expansion of the receptive field and the degradation of spatial discrimination. Large continuous image areas are focused on and discriminative details are generally overlooked, which are essential for distinguishing subtle difference in fine-grained visual categorization.”

Approach

在这里插入图片描述

Multi-level Feature Boosting

在这里插入图片描述

  • 由于输入图像分块时的 non-overlapping splitting 会导致 incomplete neighboring information,因此作者采用 sliding window splitting method (He, Shuting, et al.) 对输入图像进行分块,patch 数量 N N N
    在这里插入图片描述其中 H , W H,W H,W 为图像高宽, S S S 为 window’s sliding step, P P P 为 patch size
  • 最后 3 个 transformer layers 的 [CLS] token 输出 concat 后得到 image representation,送入 FC 分类头得到最终的预测结果

Structure Information Learning

在这里插入图片描述

  • 作者提出 structure information learning (SIL) module,它将 N N N 个 patch 建模为 N N N 个结点的图,使用 GCN 将物体空间上下文信息引入 ViT
  • (1) 图的结点特征. 首先,作者利用不同 patch token 和 [CLS] token 之间的 attention weight 定位物体位置。假设为 H H H 头自注意力层,则 total attention weights
    在这里插入图片描述其中 A t t h c l s Att_h^{cls} Atthcls h h h-th head 中各个 patch token 和 [CLS] token 的 attention weights. 因此 A ∈ R N A\in\R^{N} ARN 就代表了 N N N 个 patch token 与 [CLS] token 的相关程度,相关程度越高,则该 patch 内含有物体的可能性就越高。其中 attention weight 最大的 patch 为 reference patch最终使用的 GCN 输出特征即为 reference patch 对应的结点特征. 受 Zhou, Mohan, et al. 启发,作者使用 patch 到 reference patch 的极坐标作为 patch 的结点特征 X X X
    在这里插入图片描述其中, ( x 0 , y 0 ) (x_0,y_0) (x0,y0) 为 reference patch 在 N H × N W N_H\times N_W NH×NW 的分块图像上的坐标, ( x , y ) (x,y) (x,y) 为 patch 在分块图像上的坐标, arctan ⁡ 2 ( ⋅ ) \arctan2(\cdot) arctan2() 返回 ( − π , π ] (−π, π] (π,π] 范围内的极坐标角度信息
  • (2) 图的边权. 可以计算出 total attention weights 的均值 A ˉ \bar A Aˉ,然后过滤掉 attention weight 小于均值的背景 patch,新的 total attention weights A n e w A^{new} Anew
    A i n e w = { A i  if  A i > A ˉ 0  otherwise  A_{i}^{n e w}=\left\{\begin{array}{cc} A_{i} & \text { if } A_{i}>\bar{A} \\ 0 & \text { otherwise } \end{array}\right. Ainew={Ai0 if Ai>Aˉ otherwise 图的边权
    A d j = A n e w ( A n e w ) T ∈ R N × N Adj=A^{new}(A^{new})^T\in\R^{N\times N} Adj=Anew(Anew)TRN×N由于最终使用的 GCN 输出特征即为 reference patch 对应的结点特征,因此在特征聚合时实际上只用到了 attention weight 超过均值的 patch 结点特征
  • (3) GCN. The structure features S S S are obtained by two-layer graph convolution
    在这里插入图片描述其中 σ \sigma σ 为激活函数。reference patch node 的输出特征即为 object structure feature它被直接加在 [CLS] token 的输出特征上. Through the end-to-end training, the composition of the object can be modeled and the significant image patch can be highlighted, which improves the model’s classification performance.

Contrastive Loss

在这里插入图片描述

  • 作者还进一步引入了对比学习提高模型的表征能力,在最后一层的 [CLS] token 上用了对比学习
    在这里插入图片描述其中, ( z i , z j + ) (z_i,z_j^+) (zi,zj+) 为属于同一类别的正样本对, ( z i , z j − ) (z_i,z_j^-) (zi,zj) 为负样本对, Γ y i = y j , i ≠ j \Gamma_{y_i=y_j, i \neq j} Γyi=yj,i=j 为正样本对个数, s i m ( ⋅ ) sim(\cdot) sim() 为余弦相似度, N N N 为 batch size, I n d i c a t o r i , j Indicator_{i,j} Indicatori,j 用于难负样本挖掘,负责过滤掉相似度比正样本对平均相似度低 α \alpha α 的负样本,作者在实验中设置 α = 0.3 \alpha=0.3 α=0.3

Experiments

CUB-200-2011

在这里插入图片描述
在这里插入图片描述


iNaturalist 2017

在这里插入图片描述
在这里插入图片描述


Ablation Study

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

References

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值