《Rethinking the competition between detection and ReID in Multi-Object Tracking》简述

本文针对one-shot多目标跟踪(MOT)中的特征混淆问题,提出了一种交叉相关网络(CCN)和尺度感知注意力网络(SAAN)的优化方案。CCN通过自注意力和互注意力机制解耦检测和ReID任务,而SAAN则利用多尺度特征增强ReID性能。实验证明,这种方法在提高精度的同时,尽管牺牲了一些运行速度,但整体提升了MOT任务的表现。
摘要由CSDN通过智能技术生成

引言

  基于ReID的跟踪器目前分为two-stage和one-shot两种,前者精度不错但由于ReID需要在每个检测框上推理,所以计算量很大,因此one-shot方法越来越受关注,本文分析one-shot方法的过程,表明性能下降主要因为两个方面:
  (1)检测和ReID任务之间的过度竞争:在one-sho方法中,对象置信度、目标大小和ID信息同时从共享embedding中获得。虽然效率很高,但不同任务之间的内在差异却被忽视了,检测任务需要的是同类的不同目标拥有相似的语义信息(类间距离最大),而 ReID 要求的是同类目标有不同的语义信息(类内距离最大);
  (2)ReID任务中的物体图像通常被排列成固定的大小,而在MOT任务中,对象的大小可能在帧间发生剧烈变化,因此ReID网络的特征要求具有尺度感知能力。
  为了解决上述的过度竞争问题,论文提出了一种新的交叉相关网络(CCN)来改进单阶段跟踪框架下detection和ReID任务之间的协作学习。作者首先将 detection和ReID 解耦为两个分支,分别学习。然后两个任务的特征通过自注意力方式获得自注意力权重图和交叉相关性权重图。自注意力图是促进各自任务的学习,交叉相关图是为了提高两个任务的协同学习。而且,为了解决上述的尺度问题,设计了尺度感知注意力网络(SAAN)用于 ReID 特征的进一步优化,SAAN 使用了空间和通道注意力,该网络能够获得目标 不同尺度的外观信息,最后 不同尺度外观特征融合输出即可。

方法

  整体框架如下:
在这里插入图片描述
  基于JDE思路,中间增加了一个CCN网络模块,用于构建 detection 和 ReID 两个分支不同的特征图,构建的两个特征图分别送入Detection head和SAAN,Detection head 将 JDE 的 YOLOv3 换为了YOLOv5
CCN的网络结构如下:
在这里插入图片描述
  首先从检测器的backbone得到特征图F,然后经过平均降维池化得到更精炼的特征图F’,然后,两个不同的卷积层作用于F’,生成两个特征图T1和T2,这两个特征图被reshape为M1和M2,然后M1、M2各与自己的转置矩阵进行矩阵乘法再经过softmax得到自注意力图{ Wt1 ,Wt2},M1和M2的转置矩阵相乘再分别进行softmax和转置再softmax,得到互注意力图{ Ws1 ,Ws2},然后,对每个分支,自注意力图和互注意力图相加获得通道级别的注意力图,和原始的输入特征图F相乘再与F相加就得到了输出特征图Ft1和Ft2,前者用于Detection head的检测处理,后者用于SAAN中ReID处理。
SAAN结构如图3(a)所示:
在这里插入图片描述
  首先将1/16和1/32尺度(与输入图像大小相比)的特征采样到1/8,然后用3×3的卷积层对重构后的特征图进行编码,为了增强与目标相关的特征,抑制背景噪声,引入空间注意力对特征进行处理,如图3 (b)所示,然后,本文将不同尺度的特征映射连接起来,通过通道注意力模块传递。通道注意模块由avg-pooling层和max-pooling层组成,分别学习输入特征的不同统计信息,如图3©所示。

实验

  关于CCN和SAAN作用的消融实验如表1所示:
在这里插入图片描述
  在MOT16和MOT17上实验结果如表2所示:在这里插入图片描述

总结

  最近看到最新的MOT论文基本都是类似于JDE的one-shot方法,这些方法在MOT的榜单上都有不错的表现,这篇文章写法上引言和其他one-shot的论文差不多,一开始说介绍MOT,然后说明TBD这种two-stage的方法不足,再引入one-shot,分析one-shot可以改进的点,再引出本文方法,其他不同的就是这篇文章没有写相关工作。
  内容上就主要是针对于特征优化的提升,引入了注意力机制。之前JDE 就是一个特征图送入检测和ReID分支,然后作者认为这会造成后续的特征混淆,所以提出了CCN模块,用于提取更适合detection和ReID任务的一般特征和特定特征,不过从CCN网络模块来看,并看不出能说服与适合相关的理论依据,两边唯一不同的就是中间的M1和M2的转置相乘后是否转置,然后后面提出的SAAN模块,就是不同分支采用不同的下采样倍率获得不同尺度的特征图,对ReID进行多尺度融合,这两部分就是论文里的改进点(检测从yolov3换成yolov5应该算不上提出的改进点吧,这篇论文也是在实验部分里说明的)。
  从与SOTA的整体实验里可以看出,这篇论文的精度效果确实很好,但是FPS上降低了。另外从消融实验里看到,把检测模块从yolov3换成yolov5得到的非常多,所以感觉这领域还是更多靠检测上的提升。另一方面整体实验可以看到大多数MOT榜单上的方法FPS都偏低,不过在消融实验和整体实验里,JDE的效果并不一样,查阅JDE论文后发现,前者应该是作者自己做的实验,而后者数据是论文里的数据。
在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值