[Arxiv 2022] A Novel Plug-in Module for Fine-Grained Visual Classification

Method

Plug-in Module

在这里插入图片描述

  • Backbone:为了帮助模型抽取出不同尺度的特征,作者在 backbone 里加入了 FPN
  • Weakly Supervised Selector:假设 backbone 的 i i i-th block 输出的特征图为 f i ∈ R H × W × C , f_i\in\R^{ H\times W\times C}, fiRH×W×CWeakly Supervised Selector 先将 f i f_i fi 输入 FC + Softmax 得到每个特征点的预测概率 f i ∈ R H × W × C ′ f_i\in\R^{H\times W\times C'} fiRH×W×C,其中 C ′ C' C 为类别数。作者认为,特征点的最高预测概率值越大,就说明该特征点越重要,因此,作者最终保留最高预测概率值最大的 num_selects 个特征点
    在这里插入图片描述
  • Combiner:作者采用图卷积来融合各层选取出的特征点,输入为各层选出的特征点,由 1 层 GNN 学得不同特征点之间的关系,再通过池化得到 1 32 \frac{1}{32} 321 的 super nodes,最后经过 avg pooling + FC 得到预测结果
    在这里插入图片描述

Loss function

  • (1) 每一层的 feature map f l f_l fl 应该具有正确分类的能力。作者首先求得特征图所有特征点的预测均值,其中 f l , s ∈ R C ′ f_{l,s}\in\R^{C'} fl,sRC 代表 l l l 层特征图 s s s 位置的特征点经过 Weakly Supervised Selector 的 FC + Softmax 后的预测结果,损失函数采用交叉熵损失
    在这里插入图片描述
  • (2) 模型需要预测每个特征点属于前景 (重要特征区域) 的概率。设 M a s k ∈ R H × W Mask\in\R^{H\times W} MaskRH×W 为 Selector 选出的前景索引, f l , s ∈ R C f_{l,s}\in\R^C fl,sRC i i i-th block 输出的特征。作者让前景特征向量值尽量大,背景特征向量值尽量小
    在这里插入图片描述
  • (3) Combiner 输出的预测结果使用交叉熵损失 L c L_c Lc
  • 总的损失函数是上述损失的加权和
    在这里插入图片描述其中,$\lambda_b=1,\lambda_s=0,\lambda_n=5,\lambda_c=1$

推理的预测结果为所有 block 以及 Combiner 预测结果的平均

Experiments

  • Compare with state-of-the-art approaches:
    在这里插入图片描述在这里插入图片描述
  • PIM on four mainstream backbones
    在这里插入图片描述
  • Ablation study
    (1) Number of Selections:每个 block 选取的前景特征点的数量。以 4 个 block 的 Swin-T 为例,可以看出选取数量对性能影响没有那么直接,在权衡性能和效率后,作者选择 [256, 128, 64, 32]
    在这里插入图片描述
    • (2)
      在这里插入图片描述
  • Grad-CAM visualization:可以看到,PIM 的确能聚焦于关键特征区域
    在这里插入图片描述

References

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值