小样本检测:蒸馏&上下文助力小样本检测(代码已开源)

a26f860cfd3499a77a3874d02e0a1aa1.gif

计算机视觉研究院专栏

作者:Edison_G

目标检测现在的框架越来越多,我们“计算机视觉研究院”最近也分享了众多的目标检测框架!今天我们继续分享一个最新的检测框架——DCNet

fbed6c954f74bdb48199a005bb2b0e06.png

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

f2aa2511c25bf0f4524c498e8e4a9a76.png

论文:https://arxiv.org/pdf/2103.17115.pdf

开源代码: https://github.com/hzhupku/DCNet

1

前言

传统的基于深度学习的目标检测方法需要大量的边界框标注数据进行训练,获得如此高质量的标注数据成本很高。少样本目标检测,学习适应只有少数带注释的例子的新类,非常具有挑战性,因为新目标的细粒度特征很容易被忽略,而只有少数可用数据。

57b2020370636d0da1ef169f103730cb.jpeg

为了充分利用带注释的新目标的特征并捕获查询对象的细粒度特征,研究者提出了具有稠密关系蒸馏与上下文感知聚合来解决Few-Shot检测问题。Dense Relation Distillation 模块建立在基于元学习的框架之上,旨在充分利用支持特征,其中支持特征和查询特征密集匹配,以前向传播方式覆盖所有空间位置。引导信息大量使用赋予了模型处理常见挑战(例如外观变化和遮挡)的能力。此外,为了更好地捕捉尺度感知特征,上下文感知聚合模块自适应地利用来自不同尺度的特征以获得更全面的特征表示

2

背景

先前对Few-Shot物体检测的研究主要由两组组成。他们中的大多数采用基于元学习的框架来为特定于类的预测执行特征重新加权。而【Frustratingly simple few-shot object detection】采用两阶段微调方法,仅微调最后一层检测器并实现最先进的性能。【Multi-scale positive sample refinement for few-shot object detection】也使用类似的策略并专注于小样本检测中的尺度变化问题。

1208ac4fb6d54bb8da1c8640d6e072da.png

然而,由于小样本对象检测的挑战性,上述方法通常存在一些缺点。首先,在之前的小样本检测工作中,支持特征和查询特征之间的关系几乎没有被充分探索,其中支持特征的全局池化操作主要用于调制查询分支,这容易丢失详细的局部上下文。具体来说,物体的外观变化和遮挡很常见,如上图所示。如果没有提供足够的判别信息,模型就无法学习类别和边界框预测的关键特征。其次,尽管尺度变化问题在之前的工作中得到了广泛的研究,但它仍然是小样本检测任务中的一个严重障碍。在少样本设置下,具有尺度感知改变的特征提取器倾向于过度拟合,导致基类和新类的性能下降。

Few-Shot Object Detection

小样本目标检测旨在仅提供一些带注释的训练示例,从新类别中检测目标。LSTD和RepMet采用通用的迁移学习框架,通过将预训练的检测器适应少数场景来减少过度拟合。

84b098a6f72ff7e8ad9d1e2e592f8446.png

Meta YOLO

最近,Meta YOLO使用YOLO v2设计了一种新颖的小样本检测模型,该模型学习可泛化的元特征,并通过从支持示例中生成特定于类的激活系数来自动重新加权新类的特征。

c7264e8bbd661f94dc0907d1772efa4f.png

Meta R-CNN

Meta R-CNN和FsDetView使用基础检测器执行与Faster RCNN类似的过程。TFA通过仅在第二阶段微调分类器来简单地执行两阶段微调方法,并获得更好的性能。MPSR提出了多尺度正样本细化来处理尺度方差问题。CoAE提出了非局部RPN,并通过与其他跟踪方法进行比较,从跟踪的角度专注于单次检测。

而今天分享的方法以更直接的方式对主干提取的特征进行交叉注意,目标在Few-Shot检测任务。FSOD提出了注意力RPN、多关系检测器和对比训练策略来检测新对象。在新框架工作中,采用了与Meta R-CNN类似的基于元学习的框架,并进一步提高了性能。此外,使用提出的方法,可以成功删除特定于类的预测过程,从而简化整个过程。

3

新框架

DCNet

如下图所示,展示了具有上下文感知特征聚合 (CFA) 模块的密集关系蒸馏 (DRD) 模块,以充分利用支持特征并捕获必要的上下文信息。这两个提出的组件构成了最终模型DCNet。研究者将首先描述所提出的DRD模块的架构。然后将带出CFA模块的细节。

c835ad1f60ccbcb1e409f0983c10a08e.png

Dense Relation Distillation Module

给定查询图像和支持集,通过将它们输入共享特征提取器来生成查询和支持特征。密集关系蒸馏(DRD)模块的输入是查询特征和支持特征。这两个部分首先通过专用的深度编码器编码成键和值映射对。查询编码器和支持编码器采用相同的结构,但不共享参数。

Relation Distillation。在获取查询和支持特征的键/值映射后,进行关系蒸馏。如上图所示,支持特征值映射的软权重是通过测量查询特征的关键映射和支持特征之间的相似性来计算的。

Context-aware Feature Aggregation

3ac4bb3cd25de265db876886c9040b57.png

如上图所示,研究者为每个由两个块组成的特征添加一个注意力分支。第一个块包含全局平均池化。第二个包含两个连续的fc层。之后,向生成的权重添加softmax归一化,以平衡每个特征的贡献。那么聚合特征的最终输出就是三个特征的加权求和。

 Learning Strategy

b134d65b643b084e05c4d32223528857.png

4

实验及可视化

Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset

bac4b8b866a0bcf1a76c3114cb9f09d0.png

23abf6fa8204a2265d282cd8659b8a4f.png

(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.

6a91aee0681e1b0fedcb84aac8394a3b.png

消融研究以评估提出的方法中不同组件的有效性

707b99526375d1b78635e6b5a379598f.png

Few-shot object detection performance on COCO minival of MS COCO dataset

在coco中筛选了少量的数据集,基于源码训练10个epoch,效果还是不行啊!可能我数据集选的太少了还有就是训练啥都没有改,主要想快速看下具体效果及检测精度。有兴趣的同学自行去操作实践下!

© THE END 

转载请联系本公众号获得授权

cd1cc54f8e020573cd07c80a42516371.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

58efa71c5546a3e9bcb7655a7aed9137.jpeg

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

 往期推荐 

🔗

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值