[TMM 2023] TransIFC: Invariant Cues-aware Feature Concentration Learning for Efficient FGVC

Introduction

  • Challenges of Fine-grained Bird Image Classification. (1) Bird molting: Some birds undergo an annual molt (change their feather) as season changes (Figs. 1(a) and 1(b)). (2) Complex background. (3) Arbitrary posture
    在这里插入图片描述
  • Observation and motivation. Finding I: Invariant cues of specific birds. i.e., core features and the long-dependent semantic relationships of bird parts. Finding II: Subtle discrepancies of different birds.
    在这里插入图片描述

Proposed TransIFC Model

Feature map generation

在这里插入图片描述

  • TransIFC 采用 Swin Transformer 作为 backbone (pre-trained on ImageNet-22k),抽取 fine-grained and multiscale information,输出的特征为各个 stage 的输出特征 (i.e., 各个 stage 输出 token feartures 的 avg pooling)

FFA module

在这里插入图片描述

  • FFA 负责提取出图像中的特征显著区域 (invariant core features)
  • 假设 q i q_i qi ( i ∈ [ 1 , 2 , . . . , n ] i\in[1,2,...,n] i[1,2,...,n]) 为 patch merging layer 后输出的 𝑛 𝑛 n 1D patch vectors,可以计算这 n n n 个 vectors 间的相似度矩阵 S n × n S_{n\times n} Sn×n,其中 S i j = S i m ( q i , q j ) S_{ij}=Sim(q_i,q_j) Sij=Sim(qi,qj),相似度可以采用余弦相似度或 L2 距离的倒数。由相似度矩阵可以得到每个 patch vector 的 discrimination score
    在这里插入图片描述FFA 选择 Hits@𝑘 (𝑘 highest scored) patch vectors 作为下一层的输入 (这里具体是在哪几个 stage 加 FFA 感觉作者写的不是很清楚,论文介绍 FFA 的时候写得好像是每个 stage 都加 FFA,但根据论文的示意图以及后面的消融实验中说 k k k 是常数,作者应该是只在最后一个 stage 用了 FFA (TransIFC),将具有显著特征的 patch fearture 用于网络的后续分类,而根据后面实验部分,作者说将 FFA 用在了每个 stage 中用于替代 HSFA 中的 max pooling (TransIFC+),不过 Swin 里每个 stage patch 数都不一样,这样 k k k 值还能是常数?)
  • 作者还做了可视化,中间 5 个浅绿色的 patch features 即为最后一个 stage 里的 Hits@𝑘 patch vectors,可以发现在 lower layers 中,Hits@k features 各不相同,而得分低的 patch feartures 基本相同。在 higher layers 中,Hits@k features 比较相似,且激活值都比较高,而得分低的 features 看起来比较 noisy
    在这里插入图片描述

HSFA module

在这里插入图片描述

  • HSFA 负责融合来自不同 stage 的多尺度信息。它首先将 feature maps M i M_i Mi ( i ∈ [ 1 , 2 , 3 , . . . , N ] i\in[1,2,3,...,N] i[1,2,3,...,N] N N N 为 stage 数) 用 max pooling 降维,拉直后 concat 得到 aggregated feature map 𝑨

Classification head

在这里插入图片描述

  • 将 FFA 和 HSFA 的输出连接后经过两个全连接层后就得到了 final prediction y ^ \hat y y^ (为了防止过拟合,还加了 dropout)

MAP-based model

  • MAP (Maximum A Posteriori) estimation
    θ ∗ = argmax ⁡ θ ∏ i = 1 r p ( θ ∣ x i , y i ) = argmax ⁡ ∏ i = 1 r p ( x i , y i ∣ θ ) p ( θ ) ∏ i = 1 r p ( x i , y i ) = argmax ⁡ ∏ i = 1 r p ( x i , y i ∣ θ ) p ( θ ) = argmax ⁡ ( log ⁡ ∏ i = 1 r p ( x i , y i ∣ θ ) + log ⁡ p ( θ ) ) \begin{aligned} \theta^*&=\operatorname{argmax}_\theta \prod_{i=1}^r p\left(\theta \mid x_i, y_i\right) \\&=\operatorname{argmax} \frac{\prod_{i=1}^r p\left(x_i, y_i \mid \theta\right) p(\theta)}{\prod_{i=1}^r p\left(x_i, y_i\right)} \\&=\operatorname{argmax} \prod_{i=1}^r p\left(x_i, y_i \mid \theta\right) p(\theta) \\&=\operatorname{argmax}\left(\log \prod_{i=1}^r p\left(x_i, y_i \mid \theta\right)+\log p(\theta)\right) \end{aligned} θ=argmaxθi=1rp(θxi,yi)=argmaxi=1rp(xi,yi)i=1rp(xi,yiθ)p(θ)=argmaxi=1rp(xi,yiθ)p(θ)=argmax(logi=1rp(xi,yiθ)+logp(θ))
  • 似然取
    p ( x i , y i ∣ θ ) ∝ 1 2 π σ exp ⁡ ( ∥ y i − y ^ i ∥ 2 2 σ 2 ) p\left(x_i, y_i \mid \theta\right) \propto \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(\frac{\left\|y_i-\hat{y}_i\right\|^2}{2 \sigma^2}\right) p(xi,yiθ)2π σ1exp(2σ2yiy^i2)先验取
    p ( θ ) ∝ ∥ θ − 0 ∥ 2 p(\theta) \propto\|\theta-0\|^2 p(θ)θ02最后可得损失函数
    L ( θ ) = 1 2 ∑ i = 1 r ∥ y i − y ^ i ∥ 2 + η ∥ θ ∥ 2 L(\theta)=\frac{1}{2} \sum_{i=1}^r\left\|y_i-\hat{y}_i\right\|^2+\eta\|\theta\|^2 L(θ)=21i=1ryiy^i2+ηθ2

Experiments

Results on the CUB-200-2011 dataset

  • 实验部分最大的问题是没有直接和 Swin 比较 (在消融实验部分提到了 Swin 在 CUB 数据集上的性能)

在这里插入图片描述

Results on the NABirds dataset

在这里插入图片描述

Results on the Stanford Cars dataset

在这里插入图片描述

Visualization (ScoreCAM)

在这里插入图片描述
Ablation study

  • Effect of 𝑘 𝑘 k on the FFA module, and positional embeddings
    在这里插入图片描述
  • Effect of head number in self-attention operation, and positional embeddings
    在这里插入图片描述
  • Effects of HSFA and FFA modules
    在这里插入图片描述
  • Effect of image resolution
    在这里插入图片描述

References

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值