Paper Reading《Relation Networks for Object Detection》

主流的基于深度学习的物体检测方法是对不同类别进行单独的检测,而本文提出了关系网络的方法,通过对不同物体间的关系进行建模,来优化物体检测任务。

主流的物体检测任务流程

在这里插入图片描述
物体检测任务可以分成:1. 图片特征生成 2.区域特征提取 3.实例识别 4. 多余框的去除 四个部分,而本文提出的Relation Module能够优化后面两个流程,即实例识别和多余框去除。

Object Relation Module的数学模型

本文的关系模型的思路是来源于NLP领域的论文《Attention is all
you need》,所以关系模型的建立有很多相似之处。
在这里插入图片描述
这张图片就是Relation Module的整体结构,可以看到输入是 f A f_A fA f G f_G fG.
其中 f A f_A fA是Appearance Feature,物体的表观特征,是由全连接层输出的1024维的feature map, f G f_G fG是物体的几何特征,指的是bounding box的四个参数(x,y,w,h),而 f G m f_G^m fGm f G n f_G^n fGn是指第m个bounding box和第n个bounding box。
模块的输出是 f R n f_R^n fRn是指第n个物体的关系特征Relation Feature。 f R n f_R^n fRn的计算公式为:
在这里插入图片描述
虚线框中的 W V W_V WV, W Q W_Q WQ W K W_K WK都是线性变换矩阵,对表观特征 f A n f_A^n fAn进行线性变换的目的是为了将原有的特征映射到线性子空间来适应位置平移和大小变化。
w m n w^{mn} wmn是关系权重,用来决定第m个物体的表观特征将对第n个物体的关系特征有多大的影响。其计算公式为:
在这里插入图片描述
公式中的 w G w_G wG w A w_A wA表示来源于表观特征和几何特征的权重。
w A w_A wA的计算公式为:
在这里插入图片描述
通过第m个物体和第n个物体的点积来表征他们的关系相近程度。 d k d_k dk是物体的个数,如果物体个数很多,那么他们之间的相互关系(点积)的值就会很大,经过softmax之后就容易梯度弥散,所以 d k \sqrt{d_k} dk 是为了缩放点积的结果,将其约束在合理的范围内。
对于 w G w_G wG的计算,就较为复杂了,现抛出公式:
在这里插入图片描述
ε G \varepsilon_G εG是一个函数,表征两个物体的位置关系,公式是:
在这里插入图片描述
以上是对Relation Module的输入输出以及中间环节的数学模型进行了介绍,那么Relation Module的输出 f R n f_R^n fRn将如何整合到网络中?
如下图所示,多个Relation Module输出的关系特征级联之后与原本的表观特征进行融合。
在这里插入图片描述
之所以使用多个Relation Module并行处理,也是来自于《Attention is all
you need》的Multi-head思路,通过不同的线性变换来获得特征的平移缩放不变性。
上面的框架结构的数学表达为:
在这里插入图片描述
我们可以知道,通过整个结构,模型的输入输出的尺寸没有变化,因此可以嵌入到现有的物体检测框架中,从而可以优化全连接层的输出。

Relation Module对物体识别的优化

上文说到Relation Module可以对物体检测中的物体识别和多余框去除两个步骤进行优化,并且由于其输入输出具有相同的尺寸,因此串接到全连接层中来优化全连接的输出结果,即优化了物体识别的效果。
主流的物体识别方法是对proposal的特征进行全连接层的分类,然后通过线性层得到score和bounding box的参数。如下图所示:

在这里插入图片描述
而本文是对这种方法进行改进,通过在两个全连接层后面串接若干个RM(Relation Module)来优化结果。
在这里插入图片描述

Relation Module对多余框去除的优化

多余框去除的过程可以看成是对各个bounding box进行二分类的判别,即判定为保留或者去除,这个二分类任务是通过一个网络来实现的,即duplicate removal network。其结构如下:
在这里插入图片描述
其中 s 0 s_0 s0即为对proposal分类的score,而 s 1 s_1 s1是二分类判别的结果,如果是多余的框则 s 1 s_1 s1=0,如果是要保留的框,则 s 1 s_1 s1=1。输出的socre是 s 0 s_0 s0 s 1 s_1 s1的乘积。因此好的检测结果(正确类别并且bounding box最接近ground truth的结果)的score也会更高。
至于内部的计算过程,我们根据核心的Relation Module的输入输出分别介绍。
输入
我们已经知道Relation Module的输入是表观特征 f A f_A fA和几何特征 f G f_G fG,其中 f A f_A fA是由分类score及其1024维的表观特征feature map融合得到的。
f G f_G fG就是当前的待分类的bounding box的几何信息。
输出
输出即为关系特征经过线性层和Sigmoid层得到分类结果。
值得注意的是框图中有一个rank embed,是将score的具体数值转化成了按照score大小的排序,因为作者通过实验发现使用score的排序作为输入比直接使用score数值效果要好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "few-shot object detection with attention-rpn and multi-relation detector" 是一种使用注意力机制的少样本目标检测方法。它通过使用 Attention-RPN(Region Proposal Network)和 Multi-Relation Detector 来实现对目标的检测。 Attention-RPN 可以在提议区域中识别关键部位,而 Multi-Relation Detector 则可以在少量样本中识别目标并定位它们。这种方法在训练和测试时都需要少量样本,因此可以减少模型的训练时间和资源消耗。 ### 回答2: 随着人工智能技术的不断发展,目标检测的研究也得到了越来越多的关注。其中,Few-shot object detection with attention-rpn and multi-relation detector是目前在目标检测领域上的一个最新研究成果。那这个算法是什么呢? 针对目前目标检测领域中的一大难点——少样本学习,此研究提出了一种基于RPN(region proposal network)和注意力机制的多关系检测算法,使得模型只需使用少量的训练数据,就能在未见过的类别中达到较高的检测准确率。 具体来说,该算法通过在RPN中引入注意力交互模块来提供精细的检测区域,同时通过设计多组关系特征提取器,能够有效处理不同目标类别之间的相互关系。在训练阶段,该算法将训练数据集划分为meta-train和meta-test集合,然后在较小的meta-train集合中学习关系特征提取器和注意力交互模块,最后在meta-test集合的未知类别中进行目标检测。 综合以上基本思路,该算法通过引入注意力机制和多关系特征提取器来实现Few-shot object detection。该算法在目前的Few-shot目标检测基准测试数据集上进行了实验证明,实现了较高的检测准确率,在很大程度上解决了少样本学习的问题。未来,这个技术还需要进一步实践和推广,使得得到更广泛的使用。 ### 回答3: 本文介绍了一种基于注意力机制RPN(Attention-RPN)和多关系检测器(Multi-Relation Detector)的小样本目标检测技术(Few-shot Object Detection)。该技术可以利用预训练的模型来辅助小样本检测任务,并可以适应新的目标类别。 本文中的Attention-RPN是一种针对小样本学习的改进版本,它可以通过选择性的关注训练数据中的重要区域来提高小样本的性能。同时,Attention-RPN还可以利用先前训练模型的知识来指导小样本的训练过程,从而提高检测结果的准确性。 而多关系检测器则是一种可以检测目标之间关系的模型。通过学习目标之间的关系,可以更好地理解图像中的场景,并且可以更准确地定位和分类目标。本文中的多关系检测器采用了一种新的模型结构,其中用到了一种称为Transformers的自注意力机制,它可以自适应地聚焦于任务中的关键区域,从而提高检测性能。 在实验中,本文采用了COCO、VOC和miniImagenet等数据集进行测试。结果表明,本文所提出的Few-shot Object Detection技术可以在少量样本的情况下取得好的检测结果。同时,Attention-RPN和Multi-Relation Detector也能分别提高小样本和多样本的检测性能,证明它们是十分有效的模型改进方式。 综上所述,本文提出了一种新的小样本目标检测技术,并通过Attention-RPN和Multi-Relation Detector的改进来提高检测性能。该技术对于具有高效率和精度要求的目标检测任务具有十分重要的意义,可能对未来的计算机视觉研究和工业应用产生积极的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值