[ECCV 2020] FGVC via progressive multi-granularity training of jigsaw patches

Introduction

  • 不同于显式地寻找特征显著区域并抽取其特征,作者充分利用了 CNN 不同 stage 输出的特征图的语义粒度信息,并使用 Jigsaw Puzzle Generator 进行数据增强来帮助模型学得多粒度的图像特征,提高模型的细粒度分类性能。值得注意的是,Jigsaw Puzzle Generator 进行数据增强的过程非常类似于 Swin Transformer 合并 image patch 的过程,并且文章也进一步证明了融合多个 stage 的预测结果对细粒度分类是有很大提升的

在这里插入图片描述

Progressive Multi-Granularity (PMG) training framework

在这里插入图片描述

  • Network Architecture:PMG 可以采用任意 backbone F F F. 假设它有 L L L stages,其中 l l l-th stage 输出的特征图为 F l ∈ R H l × W l × C l F^l\in\R^{H_l\times W_l\times C_l} FlRHl×Wl×Cl. 此外,由于作者还想在最后 S S S F l F^l Fl 上施加分类损失,因此每个 stage 还对应一个 convolution block H c o n v l H_{conv}^l Hconvl (2 conv + max pooling) 用来得到特征向量 V l = H c o n v l ( F l ) V^l=H_{conv}^l(F^l) Vl=Hconvl(Fl),最后再经过 H c l a s s l H^l_{class} Hclassl with Batchnorm and Elu (2 FC + Softmax) 即可得到 y l = H c l a s s l ( V l ) y^l = H^l_{class}(V^l) yl=Hclassl(Vl). 此外,将最后 S S S 个 stage 对应的 V l V^l Vl concat 起来可以得到
    在这里插入图片描述还可以在 V c o n c a t V^{concat} Vconcat 上施加分类损失 y c o n c a t = H c l a s s c o n c a t ( V c o n c a t ) y^{concat} = H^{concat}_{class} (V^{concat}) yconcat=Hclassconcat(Vconcat) (作者选取 S = 3 S=3 S=3)
  • Progressive Training:作者采用了 progressive training,即先训练 low stage,再逐步训练后续 stage (At each iteration, a batch of data d d d will be used for S + 1 S + 1 S+1 steps)。由于 low stage 的感受野和表达能力有限,因此为了正确分类,它更容易关注到一些 discriminative information from local details (i.e. object textures) (this increment nature allows the model to locate discriminative information from local details to global structures when the features are gradually sent into higher stages, instead of learning all the granularities simultaneously)
    在这里插入图片描述在这里插入图片描述
  • Jigsaw Puzzle GeneratorJigsaw Puzzle solving (Wei, Chen, et al. “Iterative reorganization with weak spatial constraints: Solving arbitrary jigsaw puzzles for unsupervised representation learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.) 已被证明是一种有效的图像增强方法。作者使用 Jigsaw Puzzle 来为不同 step 的输入数据进行数据增强来强制模型学习与当前 stage 相对应的粒度信息 (devise different granularity regions and force the model to learn information specific to the corresponding granularity level at each training step; only the last step (combined step) is still trained with original images)。给定输入图像 d ∈ R 3 × W × H d\in\R^{3\times W\times H} dR3×W×H,可以将其分为 n × n n\times n n×n patches,然后将 patches 随机 shuffle 组成新的图像, n n n 越大 patches 对应的粒度也就越小。每个 stage 的 n n n 需要满足如下条件:(i) patch size 应该小于当前 stage 的感受野;(ii) patch size 应该随着当前 stage 感受野的增加而增加。由于相邻 stage 感受野通常减半,因此作者将 l l l-th stage 的 n n n 设为 2 L − l + 1 2^{L-l+1} 2Ll+1。需要注意的是,jigsaw puzzle generator 并不能总是保证细粒度特征区域在同一个 patch 内,但由于作者采用了 random cropping,因此这一问题不会带来模型性能降低
  • Inference:可以只使用 concat feature 进行分类
    在这里插入图片描述也可以融合多个 stage 的分类结果进行分类
    在这里插入图片描述

Experiments

Implementation Details 见 4.1 (The input images are resized to a fixed size of 550 × 550 550 × 550 550×550 and randomly cropped into 448 × 448 448×448 448×448)

  • Comparisons with State-of-the-Art Methods
    在这里插入图片描述
  • Ablation Study
    在这里插入图片描述在这里插入图片描述
  • Visualization (Grad-CAM)
    在这里插入图片描述

References

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值