Few-Shot Object Detection with Sparse Context Transformers-CVPR论文汇报

Few-Shot Object Detection with Sparse Context Transformers-CVPR论文汇报

背景(Background)

  1. 迁移学习(transfer learning)是目前解决少样本问题的一个有效方法

迁移学习就是在源域(source domain)上训练好一个检测模型后,送到目标域(target domain)上微调。

  1. 目标域(target domain)因标注少因此无法有效识别新类
  2. 目标检测=定位+分类;FSOD中的定位需要的是空间信息可以通过预训练解决,但是分类需要语义信息,要在模型上重新训练;降低因分类准确性低引起的类别混淆问题。

相关工作(Related Work)

针对目标域(target domain)中的目标物体的检测,以前主要有3种方法:

  1. Chen et al.提出专门针对于目标域前景物体的少样本迁移检测头,专门用于微调阶段,以获得更多的目标物体信息
  2. Khandelwal et al.提出半监督的框架,结合了基类(base class)和新类(novel class)之间的加权多模态相似性度量
  3. Wang et al. 提出文本-transformer用于专门解决FSOD的物体混淆问题。transformer依赖于一系列来自于先前(先前指的是源域)先验框的空间尺寸和长宽比例的文本域,通过点乘的结果来反映源域和目标域之间的关系(以源域中得到的先验框知识为指引,探索目标域先验框的知识,得出两者关系),来提高检测器的判别能力。

本文是基于context-transformer的一个拓展。

挑战(Challenge)

为什么原本的文本-transformer不行?:由于只关注源域和目标域先验框的关系会 a.引入与任务无关的文本域b.会影响模型识别新类别的能力

方法(Method)

作者考虑使用不同来源的信息在文本域和每个先验框之间建立稀疏关系帮助模型找到最有效的域。
使用稀疏文本transformer(sparse context transformer):由稀疏关系探索模块和文本聚合模块组成。

As shown subsequently, our proposed transformer includes two submodules: one for sparse relationship discovery, and another one for aggregation. These submodules are respectively used to model context/classifier relationships and for context fusion.

  • 稀疏关系探索模块(sparse relationship discovery):一张图片送入SSD检测头,得到所有先验框的得分矩阵(得分矩阵中的数据值就是物体类别的语义表达),再进行reshape;由于SSD产生先验框数量太大会导致过拟合,使用空间池化得到矩阵Q。SSD编码器得到的不同尺寸的feature map可以concat成矩阵M。Q和M组成了contextual fields。
  • Attention Focus:根据P和C(C=namda*M‘+Q),的计算得到先验框和contextual fields的关系矩阵R,R中的每一行代表contextual fields关于潜在先验框的重要性,可以以此来进行筛选。
  • 聚合模块(Aggragation):用W衡量第i个先验框和contextual fields之间的重要性。再使用P’=P+fc(W)来表达文本感知表示,最后得到先验框和物体类别的得分函数。

这一部分涉及到很多公式和数学符号,建议看原文或者是参考这篇翻译博客

实验(Experiment)

实施细节:

  • 数据集:PASCAL VOC&MS COCO;把数据集进行划分,PASCAL VOC划分成3个部分。
  • 以SSD检测器为基础结构,构建6个不同空间比例因子的检测头(1,3,5,10,19,38)。文本域中的先验框要通过卷积和最大池化,特征图则由4种空间大小组成。
  • 预训练原始SSD,再在目标域上对SSD微调。

与SOTA模型的对比实验以mAP为评估指标,发现了在几乎所有splits上的所有shot有最高准确度,尤其是在shot=1时。
消融实验以mAP和IoU阈值0.5(AP50)为指标得出了文本域和稀疏关系这两个创新点的有效性,不仅提高源域的准确性还提高在目标域上的准确性。
同时还做了Attention Focus模块和GAP(global average pooling)的消融实验,得出Attention Focus能提高在目标域上的准确度。
质的表现(Qualitative Performance):使用了激活图和检测结果进行可视化。

(个人觉得没有用实验结果充分展示对于避免混淆物体的提升,不过在新类的识别精度上确实有提升)

  • 7
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值