Relation Distillation Networks for Video Object Detection

ICCV2019的一篇视频目标检测的文章

论文链接:https://arxiv.org/pdf/1908.09511v1.pdf

据文中描述代码基于pytorch1.0所写,只是现在仍未开源。。。

主要贡献:设计了RDN(Relation Distillation Networks)模块,其实就是用两个stage来用support frame的proposal来逐步增强reference frames的proposal特征,以融合更多的proposal之间联系的特征,文中两个stage分别描述为base stage和advanced stage,最后advanced stage出来的feature用于最后检测的分类和回归,文中还涉及了一个Box Linking with Relations的post-processing的方式进一步提高算法性能。

下图中的(b)就是这个RDN,其中的relation感觉就是https://blog.csdn.net/breeze_blows/article/details/104677799中的relation module。(a)的描述感觉其实就是对应着https://blog.csdn.net/breeze_blows/article/details/104677799这篇文章,如果把(a)中的relation模块换成SELSA中设计的attention模块感觉就变成了https://blog.csdn.net/breeze_blows/article/details/104533004中的Sequence Level Semantics Aggregation for Video Object Detection(ICCV 2019)

 

 RDN的详细流程如下图,首先就是给出reference frames It,然后在[t-T,t+T]中随机选取两帧作为support frames,T在实验中取9,然后将三帧通过faster rcnn的roi_pool和之后的fc之后得到若干proposal feature,也就是图中的ROI,选取Rs,Rr的时候文中的描述为top-K object proposals from reference frame as the reference object set Rr and pack all the top-K object proposals from support frames into the supportive pool Rs,K=75,  basic stage接受Rs,Rr,输出初步relation之后的proposal feature Rr1,从Rs中选取r%(r=20)组成advanced supportive pool Rsa,将Rsa,Rs,Rr1输入到advanced stage输出Rr2用于最后的分类与回归

下图是测试的时候的inference流程,基本和训练一样,只不过这个时候用的是2T帧,其实可以看出RDN的训练与测试的流程和SELSA很像。

 

 放一张论文中的结果图,这是没有经过post-process的实验结果。

文中还对比了不同后处理对于RDN的影响,在加上了自己设计的Box Linking with Relations之后,在resnet101的backbone时候精度达到了83.8.好像是我目前见到的最好精度了,也可以是我见的太少了。。。

 

其他:

  • 其实感觉最近的目标检测文章好多都是这种设计attention然后找proposal或者说视频中物体之间的联系,进而融合特征,得到更好的检测效果,如果SELSA中也以某种方式实现RDN这种multi-stage的cascade方式,说不定精度可以从80.2提升到RDN中的81.8
  • 感觉RDN在从select r% supportive proposals in Rs with high objectness scores to form the advanced supportive pool Rsa,的时候,直接按照当前rpn得到的proposal的得分取前面的会不会有点不妥,感觉可以尝试其他的选取前r%的方式
  • 在文中的Ablation Study中对Relation Module Number Nb in Basic Stage做了实验,可以看出不是越多越好,文中的解释为We speculate that this may be the result of unnecessary information repeat from support frames and that double proves the motivation of designing the advanced stage in RDN. 感觉有点点牵强。。。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "few-shot object detection with attention-rpn and multi-relation detector" 是一种使用注意力机制的少样本目标检测方法。它通过使用 Attention-RPN(Region Proposal Network)和 Multi-Relation Detector 来实现对目标的检测。 Attention-RPN 可以在提议区域中识别关键部位,而 Multi-Relation Detector 则可以在少量样本中识别目标并定位它们。这种方法在训练和测试时都需要少量样本,因此可以减少模型的训练时间和资源消耗。 ### 回答2: 随着人工智能技术的不断发展,目标检测的研究也得到了越来越多的关注。其中,Few-shot object detection with attention-rpn and multi-relation detector是目前在目标检测领域上的一个最新研究成果。那这个算法是什么呢? 针对目前目标检测领域中的一大难点——少样本学习,此研究提出了一种基于RPN(region proposal network)和注意力机制的多关系检测算法,使得模型只需使用少量的训练数据,就能在未见过的类别中达到较高的检测准确率。 具体来说,该算法通过在RPN中引入注意力交互模块来提供精细的检测区域,同时通过设计多组关系特征提取器,能够有效处理不同目标类别之间的相互关系。在训练阶段,该算法将训练数据集划分为meta-train和meta-test集合,然后在较小的meta-train集合中学习关系特征提取器和注意力交互模块,最后在meta-test集合的未知类别中进行目标检测。 综合以上基本思路,该算法通过引入注意力机制和多关系特征提取器来实现Few-shot object detection。该算法在目前的Few-shot目标检测基准测试数据集上进行了实验证明,实现了较高的检测准确率,在很大程度上解决了少样本学习的问题。未来,这个技术还需要进一步实践和推广,使得得到更广泛的使用。 ### 回答3: 本文介绍了一种基于注意力机制RPN(Attention-RPN)和多关系检测器(Multi-Relation Detector)的小样本目标检测技术(Few-shot Object Detection)。该技术可以利用预训练的模型来辅助小样本检测任务,并可以适应新的目标类别。 本文中的Attention-RPN是一种针对小样本学习的改进版本,它可以通过选择性的关注训练数据中的重要区域来提高小样本的性能。同时,Attention-RPN还可以利用先前训练模型的知识来指导小样本的训练过程,从而提高检测结果的准确性。 而多关系检测器则是一种可以检测目标之间关系的模型。通过学习目标之间的关系,可以更好地理解图像中的场景,并且可以更准确地定位和分类目标。本文中的多关系检测器采用了一种新的模型结构,其中用到了一种称为Transformers的自注意力机制,它可以自适应地聚焦于任务中的关键区域,从而提高检测性能。 在实验中,本文采用了COCO、VOC和miniImagenet等数据集进行测试。结果表明,本文所提出的Few-shot Object Detection技术可以在少量样本的情况下取得好的检测结果。同时,Attention-RPN和Multi-Relation Detector也能分别提高小样本和多样本的检测性能,证明它们是十分有效的模型改进方式。 综上所述,本文提出了一种新的小样本目标检测技术,并通过Attention-RPN和Multi-Relation Detector的改进来提高检测性能。该技术对于具有高效率和精度要求的目标检测任务具有十分重要的意义,可能对未来的计算机视觉研究和工业应用产生积极的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值