[Arxiv 2022] A Novel Plug-in Module for Fine-Grained Visual Classification

连理o

于 2023-02-10 19:33:14 发布

阅读量707

点赞数 3

文章标签： Arxiv 2022

本文链接：https://blog.csdn.net/weixin_42437114/article/details/128976053

版权

39 篇文章 1 订阅

订阅专栏

Method

在这里插入图片描述

Backbone：为了帮助模型抽取出不同尺度的特征，作者在 backbone 里加入了 FPN
Weakly Supervised Selector：假设 backbone 的 $i$ -th block 输出的特征图为 $f_i\in\R^{ H\times W\times C}，$ Weakly Supervised Selector 先将 $f_i$ 输入 FC + Softmax 得到每个特征点的预测概率 $f_i\in\R^{H\times W\times C'}$ ，其中 $C^{'}$ 为类别数。作者认为，特征点的最高预测概率值越大，就说明该特征点越重要，因此，作者最终保留最高预测概率值最大的 num_selects 个特征点
Combiner：作者采用图卷积来融合各层选取出的特征点，输入为各层选出的特征点，由 1 层 GNN 学得不同特征点之间的关系，再通过池化得到 $\frac{1}{32}$ 的 super nodes，最后经过 avg pooling + FC 得到预测结果

(1) 每一层的 feature map $f_l$ 应该具有正确分类的能力。作者首先求得特征图所有特征点的预测均值，其中 $f_{l,s}\in\R^{C'}$ 代表 $l$ 层特征图 $s$ 位置的特征点经过 Weakly Supervised Selector 的 FC + Softmax 后的预测结果，损失函数采用交叉熵损失
(2) 模型需要预测每个特征点属于前景 (重要特征区域) 的概率。设 $Mask\in\R^{H\times W}$ 为 Selector 选出的前景索引， $f_{l,s}\in\R^C$ 为 $i$ -th block 输出的特征。作者让前景特征向量值尽量大，背景特征向量值尽量小
(3) Combiner 输出的预测结果使用交叉熵损失 $L_c$
总的损失函数是上述损失的加权和：
其中，$\lambda_b=1,\lambda_s=0,\lambda_n=5,\lambda_c=1$

推理的预测结果为所有 block 以及 Combiner 预测结果的平均

Compare with state-of-the-art approaches:
PIM on four mainstream backbones
Ablation study：
(1) Number of Selections：每个 block 选取的前景特征点的数量。以 4 个 block 的 Swin-T 为例，可以看出选取数量对性能影响没有那么直接，在权衡性能和效率后，作者选择 [256, 128, 64, 32]
- (2)
Grad-CAM visualization：可以看到，PIM 的确能聚焦于关键特征区域

关注