论文笔记--PIM

Paper: A Novel Plug-in Module for Fine-Grained Visual Classification

论文链接: https://arxiv.org/pdf/2202.03822.pdf

许多用于细粒度识别任务的定位-分类网络都具有复杂的两层或是多层结构,并且不能够实现端到端的训练。虽然基于视觉Transformer的网络架构能够避免上述缺点,但这种方法不能够推广到卷积神经网络等其他的架构中,因此适用性有限。弱监督目标定位(Weakly supervised object detection)领域的一些研究已经证明了网络提取的feature maps和目标定位之间的关联性。基于此,作者提出了一个适用于许多主干网络的即插即用的模块(plug-in module),包括CNN架构和Transformer架构。该模块能够输出像素级的feature maps,并能够融合经过滤波器后的特征。

上图是对输入图像的不同patches进行类别预测的概率分布。背景对于分类的结果显然是没有任何帮助的,且概率的分布和包括了部分目标的patches有很明显的不同。因此,作者希望能够借助这种概率分布的区别,来区分前景和背景,以此提高细粒度识别的准确性。

该图展示了PIM的整体架构。对于主干网络每一层输出的feature maps,将其输入到Weakly Supervised Selector模块,根据按像素或按patch的分类结果的概率分布,选中具有辨识度的部分。将确定为无效的特征丢弃后,将每层得到的有效特征结合,输入最终的全连接分类层,并得到分类结果。

Weakly Supervised Selector模块内部的选择逻辑非常简单。该模块将feature map中的每一个point通过一个全连接层,预测其所属类别。当预测结果向量中的最高的概率值大于某个预设的值时,就认为该点是一个有效的特征,参与之后的特征融合。反之,则视为无效特征并丢弃。

对于该模块的实用性,我抱有一定的怀疑。从整个特征提取网络的第一层和最终层提取特征,并且均参与最终的融合,是否会导致从网络深层提取出的高层语义的模糊和失真?并且全连接层作为卷积网络中计算开销占比最大的部分,我认为增加的模块对网络前向推理时的性能影响也会很大。

实验中,该模块在CUB-200-2011数据集上,以Swim-T为主干网络时的top1准确率为92.8%,相较于纯Swim-T提高了0.9%。以ViT为主干网络时的top1准确率为91.0%,相较于纯ViT提高了0.9%。实际在以ViT作为主干网络时,其准确率并未达到SOTA。但同时也证明了Swin-T在细粒度识别任务上具有的优势。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值