Relation Networks for Object Detection解读

论文连接
代码地址
首先介绍一下这项工作的难点:

  1. obiect-to-object关系的建模很困难,因为对象的位置,尺度,类别,数量可能会随着不同的图像变化而变化。
  2. 深层的卷积神经网络通过大的接受域隐式地合并了上下文信息。

本项工作的贡献:

  1. 提出了一种relation module,在检测的过程中通过利用图像中object之前的相互关系或者图像内容(context)来优化检测效果,同时它不改变特征的维度,能很好的嵌入目前的各种的检测框架,进而提高检测的性能。
  2. 将attention机制引入了NMS操作当中,即提出了一种特别的代替NMS的去重模块,可以避免NMS需要手动设置参数的问题。进而实现了真正意义上的end-to-end 训练。
    产生了第一个真正意义上的end-to-end detector。
1、Background

 我们首先假设一个问题,给出一个显示器,我们如何去进行判断它是电脑显示器还是电视显示器呢?用我们的检测的方法好像很难去进行判断,但是我们如果能够结合周围的一些信息,可能就会很容易的进行区分,比如说,放在客厅里的显示器就是电视,在检测到显示器的同时,检测到了鼠标和键盘,那么它就是笔记本的显示器。总之,周边其他物体的信息很可能对某个物体的分类定位有着帮助作用,这个作用在目前的使用RoI的网络中是体现不出来的,因为在第二阶段往往就把感兴趣的区域取出来单独进行分类定位了。这篇文章作者就考虑改良这个情况,来引入关联性信息。让我们带着问题一起来看看吧。
 我们先来看一个实际的例子,蓝色的框代表检测到的物体,黄色的框代表对该次检测有帮助的联合信息。
在这里插入图片描述

2、Object Relation Module

 首先说明的是,这篇文章的主要是基于Faster RCNN系列算法的(Faster RCNN,FPN等)引入Object Relation Module。
 接下来我们看一下这个module,这篇文章是借鉴了Google 2017发表的《Attention Is All You Need》,没有详细的了解过NLP中的这种思想,只是简单的看了一下相关的解读,以及论文中提到的一些东西。
 个人认为这个模块的特点就是联合所有的Object的信息来提升每一个object recognition的准确性。模块的示意图如下:
在这里插入图片描述
详细的介绍一下上图(左侧),先说明几个符号的含义。
1、 f A n f_A^n fAn代表第n个物体的apperance特征,就是物体的大小、形状、颜色等这些外观特征。
2、 f G n f_G^n fGn对应的是第n个物体的geometry特征,代表物体的位置和大小(bounding box)。
3、这个的relation模块(数量 N r N_r Nr),我们可以类比成神经网络中每一层都有很多的通道,以便于学习不同种类的特征。
每一个relation模块都用所有object的两个特征做输入。得到不同的relation特征后再concat,并且和原来的特征信息融合,作为物体最终的特征。
对于上图右边的部分,我们首先看公式:
在这里插入图片描述
右图符号含义:
4、 f R ( n ) f_R(n) fR(n) 是第n个relation模块的输出,它是由各个所有物体的apperance特征经过 W v W_v Wv的维数变化后,又赋予不同的权重叠加得到的.
5、 W v W_v Wv是一个线性变换操作, W G W_G WG代表object的位置特征权重,
f R ( n ) f_R(n) fR(n)是由各个所有物体的apperance特征经过 W v W_v Wv的维数变化后,又赋予不同的权重叠加得到的……位置特征是体现在权重里的(这也就是为什么在上式中输入仅仅只有 f A m f_A^m fAm一个的原因),第m个物体对于当前第n个物体的权重 ω m n \omega^{mn} ωmn的求法如下:
在这里插入图片描述
上式的分母是个归一化的项,重点来看一下分子的含义,它是由两部分决定的,第一个是第m个物体对于当前第n个物体在geometry上的权重 ω G m n \omega_G^{mn} ω

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "few-shot object detection with attention-rpn and multi-relation detector" 是一种使用注意力机制的少样本目标检测方法。它通过使用 Attention-RPN(Region Proposal Network)和 Multi-Relation Detector 来实现对目标的检测。 Attention-RPN 可以在提议区域中识别关键部位,而 Multi-Relation Detector 则可以在少量样本中识别目标并定位它们。这种方法在训练和测试时都需要少量样本,因此可以减少模型的训练时间和资源消耗。 ### 回答2: 随着人工智能技术的不断发展,目标检测的研究也得到了越来越多的关注。其中,Few-shot object detection with attention-rpn and multi-relation detector是目前在目标检测领域上的一个最新研究成果。那这个算法是什么呢? 针对目前目标检测领域中的一大难点——少样本学习,此研究提出了一种基于RPN(region proposal network)和注意力机制的多关系检测算法,使得模型只需使用少量的训练数据,就能在未见过的类别中达到较高的检测准确率。 具体来说,该算法通过在RPN中引入注意力交互模块来提供精细的检测区域,同时通过设计多组关系特征提取器,能够有效处理不同目标类别之间的相互关系。在训练阶段,该算法将训练数据集划分为meta-train和meta-test集合,然后在较小的meta-train集合中学习关系特征提取器和注意力交互模块,最后在meta-test集合的未知类别中进行目标检测。 综合以上基本思路,该算法通过引入注意力机制和多关系特征提取器来实现Few-shot object detection。该算法在目前的Few-shot目标检测基准测试数据集上进行了实验证明,实现了较高的检测准确率,在很大程度上解决了少样本学习的问题。未来,这个技术还需要进一步实践和推广,使得得到更广泛的使用。 ### 回答3: 本文介绍了一种基于注意力机制RPN(Attention-RPN)和多关系检测器(Multi-Relation Detector)的小样本目标检测技术(Few-shot Object Detection)。该技术可以利用预训练的模型来辅助小样本检测任务,并可以适应新的目标类别。 本文中的Attention-RPN是一种针对小样本学习的改进版本,它可以通过选择性的关注训练数据中的重要区域来提高小样本的性能。同时,Attention-RPN还可以利用先前训练模型的知识来指导小样本的训练过程,从而提高检测结果的准确性。 而多关系检测器则是一种可以检测目标之间关系的模型。通过学习目标之间的关系,可以更好地理解图像中的场景,并且可以更准确地定位和分类目标。本文中的多关系检测器采用了一种新的模型结构,其中用到了一种称为Transformers的自注意力机制,它可以自适应地聚焦于任务中的关键区域,从而提高检测性能。 在实验中,本文采用了COCO、VOC和miniImagenet等数据集进行测试。结果表明,本文所提出的Few-shot Object Detection技术可以在少量样本的情况下取得好的检测结果。同时,Attention-RPN和Multi-Relation Detector也能分别提高小样本和多样本的检测性能,证明它们是十分有效的模型改进方式。 综上所述,本文提出了一种新的小样本目标检测技术,并通过Attention-RPN和Multi-Relation Detector的改进来提高检测性能。该技术对于具有高效率和精度要求的目标检测任务具有十分重要的意义,可能对未来的计算机视觉研究和工业应用产生积极的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值