One-Shot Object Detection with Co-Attention and Co-Excitation

论文连接:https://arxiv.org/abs/1911.12529
代码地址:https://github.com/timy90022/One-Shot-Object-Detection

摘要

这篇文章主要是在解决小样本目标检测的挑战性问题。给定一个查询图像,其类别标签未包含在训练数据中,任务的目标是检测目标图像中同一类别的所有实例。为此,我们开发了一种新颖的共同注意和共同激发(CoAE)框架,该框架在三个关键技术方面做出了贡献。首先,我们使用non-local操作来探索每个查询目标中的共同注意(采用non-local 操作对query-target匹配对探索co-attention, 并生成ROI用于目标检测框)。其次,我们制定了一种挤压和共激励方案,该方案可以自适应地强调相关的特征通道,以帮助发现相关建议以及最终目标对象(引入squeeze-and-co-excitation scheme可以适应性的调整feature的通道权重)。最后,我们设计了一个基于边距的排名损失,用于隐式学习一种度量来预测区域提议与基础查询的相似性,无论其类别标签在训练中是否可见(第三,设计一个margin-based ranking loss , 学习一种度量方式用来预测ROI和query patch的相似度)。

1.概论介绍

主要是介绍了小样本学习(这里不再赘述)

2.相关工作

1.Object detection:最新目标检测通常分为两类:第一:one-stage(proposal-free)代表有YOLO;第二:two-stage (proposal-based)代表有Faster R-CNN(RPN)
2.Few-shot classification via metric learning:小样本分类一般采用度量学习,Siamese networks (孪生网络)、matching networks。
3.Few-shot object detection:与小样本分类相似都是基于小样本的任务。但是小样本检测的任务比较新颖,这类的文章比较少。
对于看不见的新颖的类别,我们的做法与类别无关,并且无需培训。 训练过程完成后,我们的模型可以用于检测未见类别的对象,而无需事先知道类别或进行微调。

3.研究方法

3.1 Model

在这里插入图片描述
如上图所示,模型首先通过两个以Resnet-50为backbone的Siamese Network,分别学习得到Query的特征和Target Image 的特征;为了解决query image和target image差别过大造成检测框质量差的问题,引入了non-local操作,采用如下公式分别得到non-local后的特征:在这里插入图片描述

3.2 Non-local object proposals

将通道注意力机制应用到了所有通道的每张特征图对应位置上,本质就是输出的每个位置值都是其他所有位置的加权平均值,通过softmax操作可以进一步突出共性。最后经过一个1x1卷积恢复输出通道,保证输入输出尺度完全相同。采用non-local 操作对query-target匹配对探索co-attention, 并生成ROI用于目标检测框。
经过non-local操作得到的特征图不仅包括目标图像I的图像特征,还包括加权之后的目标图像I和查询图像之间的特征,基于扩展特征设计的RPN将学习查询图像p中探索更多信息,并生成更好的区域建议质量。 换句话说,最终non-local提案将更适合小样本目标检测。

3.3 Squeeze and co-excitation

在实验过程中,发现经过non-local得到的特征它们的通道数是相同的,所以可以考虑采用Squeeze-and-co-excitation方法探索两种features对应通道的关联。其中,Squeeze step对应图1右下角部分,采用GAP对特征进行全局总结;另外co-excitation部分作为两者的桥梁调整通道的权重。
个人认为这里的意思就是将一个通道特征图中的整个图中位置的信息相融合,避免对通道进行权值评估时由于卷积核尺寸问题造成的局部感受野提取信息范围太小参考信息量不足使得评估不准确。首先是 Squeeze 操作,顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野,这一点在很多任务中都是非常有用的。其次是 Excitation 操作,它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重,其中参数 w 被学习用来显式地建模特征通道间的相关性。最后是一个 Reweight 的操作,将 Excitation 的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。
在这里插入图片描述

3.4 Proposal ranking

最后,提出一个Proposal ranking loss; 由于proposal框的数量很多的时候,首先用前景背景缩减数量,抛弃背景框;然后采用 提出的 margin-based ranking loss作为度量方法获取与query patch最相关的proposal bounding boxes。

4. 实验结果

在这里插入图片描述
结果,所提出的方法可以产生非局部对象提议并使用共激励。强调查询和目标图像共享的重要功能的操作。 最终的小样本目标检测器在两个流行的数据集上实现了最先进的性能。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值