Method
Plug-in Module
- Backbone:为了帮助模型抽取出不同尺度的特征,作者在 backbone 里加入了 FPN
- Weakly Supervised Selector:假设 backbone 的
i
i
i-th block 输出的特征图为
f
i
∈
R
H
×
W
×
C
,
f_i\in\R^{ H\times W\times C},
fi∈RH×W×C,Weakly Supervised Selector 先将
f
i
f_i
fi 输入 FC + Softmax 得到每个特征点的预测概率
f
i
∈
R
H
×
W
×
C
′
f_i\in\R^{H\times W\times C'}
fi∈RH×W×C′,其中
C
′
C'
C′ 为类别数。作者认为,特征点的最高预测概率值越大,就说明该特征点越重要,因此,作者最终保留最高预测概率值最大的 num_selects 个特征点
- Combiner:作者采用图卷积来融合各层选取出的特征点,输入为各层选出的特征点,由 1 层 GNN 学得不同特征点之间的关系,再通过池化得到
1
32
\frac{1}{32}
321 的 super nodes,最后经过 avg pooling + FC 得到预测结果
Loss function
- (1) 每一层的 feature map
f
l
f_l
fl 应该具有正确分类的能力。作者首先求得特征图所有特征点的预测均值,其中
f
l
,
s
∈
R
C
′
f_{l,s}\in\R^{C'}
fl,s∈RC′ 代表
l
l
l 层特征图
s
s
s 位置的特征点经过 Weakly Supervised Selector 的 FC + Softmax 后的预测结果,损失函数采用交叉熵损失
- (2) 模型需要预测每个特征点属于前景 (重要特征区域) 的概率。设
M
a
s
k
∈
R
H
×
W
Mask\in\R^{H\times W}
Mask∈RH×W 为 Selector 选出的前景索引,
f
l
,
s
∈
R
C
f_{l,s}\in\R^C
fl,s∈RC 为
i
i
i-th block 输出的特征。作者让前景特征向量值尽量大,背景特征向量值尽量小
- (3) Combiner 输出的预测结果使用交叉熵损失 L c L_c Lc
- 总的损失函数是上述损失的加权和:
其中,$\lambda_b=1,\lambda_s=0,\lambda_n=5,\lambda_c=1$
推理的预测结果为所有 block 以及 Combiner 预测结果的平均
Experiments
- Compare with state-of-the-art approaches:
- PIM on four mainstream backbones
- Ablation study:
(1) Number of Selections:每个 block 选取的前景特征点的数量。以 4 个 block 的 Swin-T 为例,可以看出选取数量对性能影响没有那么直接,在权衡性能和效率后,作者选择 [256, 128, 64, 32]
- (2)
- (2)
- Grad-CAM visualization:可以看到,PIM 的确能聚焦于关键特征区域