【论文笔记】AP-CNN: Weakly Supervised Attention Pyramid Convolutional Neural Network for FGVC

task

Fine-Grained Visual Classification(细粒度视觉分类),以下简称FGVC。
相较于传统的目标检测和分类,有如下两个难点:

1.高类内方差(high intra-class variance):
  图片中属于同一类别的对象通常呈现显著不同的姿态和视角。

2.低类间方差(low inter-class variance):
  下属类(例如哈士奇和金毛两个下属类,都属于狗这一超类)之间的视觉差异往往是微妙的,因为它们属于同一超类别。

数据集

当前细粒度分类的主流数据集有三个:

  • CUB-200-2011:鸟类数据集,200类11788张图像,每张图像包含15各部位的位置信息。(位置信息主要给基于部件的网络模型训练用)
  • Stanford Cars:汽车数据集,196类16185张图像,不包含部件信息。
  • FGVC-Aircraft:飞机数据集,102类10200张图像,不包含部件信息。

近两年大部分细粒度分类论文都以上述三个数据集作为benchmark。

AP-CNN

2021年2月刊登在IEEE的一篇细粒度分类的文章。
论文地址(下载需要校园网)
源码地址

整体结构
在这里插入图片描述

1、主要改进

1)Attention Pyramid(注意金字塔)

  在FPN的基础上,对每一层feature map都使用注意力机制,形成一个自下而上的注意力层级结构,作者给其取名为 注意金字塔(Attention Pyramid),这个结构中每一层又包含两个部分,分别是 空间注意 和 通道注意,生成过程如下图所示:

在这里插入图片描述

  • 每一层的通道注意由FPN中对应层的Feature map进行一次全局平均池化和两次全连接而成。
    公式如下:

    A k ( c ) = σ ( W 2 ⋅ R e L U ( W 1 ⋅ G A P ( F k ) ) ) A^{(c)}_k=\sigma(W_2\cdot ReLU(W_1\cdot GAP(F_k))) Ak(c)=σ(W2ReLU(W1GAP(Fk)))

  • 空间注意则由对应的Feature map进行一次3*3的反卷积,再做sigmoid而成。
    公式如下:

    A k ( s ) = σ ( v c ∗ F k ) A^{(s)}_k=\sigma(v_c*F_k) Ak(s)=σ(vcFk)

空间注意通常的做法是对特征层进行最大池化平均池化,之后把这俩结果进行堆叠,再做1*1卷积,然后sigmoid,最后和原特征层相乘即可。

这个部分作者没有做消融实验,我认为作者是想要和之前已经存在的CBAM进行区别,所以进行反卷积,魔改了一下😓。

2) ROI引导的细化模块

流程图:
在这里插入图片描述
以上述注意金字塔得到的空间注意  A k s A^{s}_{k} Aks 作为掩膜,在每一层都生成对应数量的ROI(region of interest),效果如下:

在这里插入图片描述
之后根据这些生成的ROI做基于ROI的Dropblock和Zoom-in(过程省略,因为非常简单),得到最终的特征map  Z k Z_k Zk.

最后再对  Z k Z_k Zk 做一次分类,将这次的结果和初始FPN经过注意力后得到的分类结果进行平均,得到最终结果。

2、与主流模型比较

在这里插入图片描述

3、可视化

首先在训练时加上可视化选项,cd到AP-CNN目录下,激活对应环境,输入:

python -m vindom.server

在本机指定的窗口(官方初始定义为8097)
出现如下提示:
在这里插入图片描述
浏览器打开本机对应端口:

在这里插入图片描述
然后运行训练文件,输入:

python train.py --visualize
  • 记得要带上可视化选项。
    如下提示,则开始训练。
    在这里插入图片描述
    此时观察到浏览器端口页面变为训练与测试图像的ROI和三层mask展示:
    在这里插入图片描述
    (顺序被我不小心打乱了😓,我还不会恢复…)

4、总结

  • 本文其实没有任何的创新点,作者将空间注意通道注意在FPN每一层都进行运用,得到了相较于baseline:NTS在CUB-200-2011上0.9个点的精度提升。
  • lego的方法值得学习和应用😏
  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
### 回答1: FGVC是指“Fine-Grained Visual Categorization”(细粒度视觉分类),是一种基于图像识别技术的分类方法。它针对那些非常相似但有微小差别的物品进行分类,比如鸟类和花卉等。 而Aircraft则是指飞机,是航空工业中的重要元素之一。在基于FGVC技术的飞机图像分类中,分类器需要对飞机的细节进行识别和分类,如翼型、尾翼形状、发动机位置等。 FGVC- Aircraft也被称作飞机姿态分类,是通过从不同角度拍摄的飞机图像中提取特征点,并对这些特征点进行关联之后来实现姿态分类的。在对飞机进行姿态分类时,还需要考虑到光照、背景、遮挡等因素,以克服不同拍摄环境对分类性能的影响。 总之,FGVC-Aircraft是一种将图像识别技术应用于飞机姿态分类的方法,具有重要的理论和实践意义,可用于提高飞机识别准确度和航空安全水平。 ### 回答2: fgvc-aircraft 是一个计算机视觉竞赛,旨在通过机器学习算法识别不同种类的飞机。该竞赛的任务是给定一张包含飞机的图片,通过分类和定位算法,准确地识别出飞机的类别和位置。 在该竞赛中,参赛队伍可以通过自己构建模型或利用已有的深度学习模型来解决问题。竞赛提供了一个包含大量飞机图片和标签的训练集,参赛队伍可以使用这些数据进行模型训练。此外,还提供了一个测试集,用于评估模型的性能表现。 参赛队伍需要根据训练集中的标签和图片信息,通过机器学习算法训练模型。训练好的模型会被用来对测试集中的图片进行分类和定位,并生成预测结果。预测结果会与真实标签进行比较,评估模型的准确率和性能。 通过参与 fgvc-aircraft 竞赛,可以促进计算机视觉领域的研究和进步。参赛队伍的创新算法和模型可以为自动驾驶、航空安全等领域提供有用的应用。同时,该竞赛也为研究人员和开发者提供了一个交流和学习的平台,推动了机器学习和深度学习算法在图像识别和分类方面的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

事多做话少说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值