BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读

BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读

BoT-SORT:

论文标题:BoT-SORT: Robust Associations Multi-Pedestrian Tracking
论文地址:https://arxiv.org/pdf/2206.14651.pdf
论文代码:https://github.com/NirAharon/BOT-SORT

BoT-SORT简述

  本文是以ByteTack为基线,通过分析近期较为流程的track-by-detection范式的“SORT-LIKE”类算法(SORT,DeepSORT,JDE)的局限性,设计较为妥当的解决方式,以此来提升MOT的性能指标。

  • 通过使用卡尔曼滤波器获得轨迹的预测框,但是得到的预测框与检测器得到的结果相比是次优的,目前大多数方法是采用DeepSORT中的状态参数,估计的是bounding box的宽高比,而不是宽高,这就导致预测框的宽高尺寸不准确。
  • 基于“ SORT-like ”类的 IOU 的方法主要依赖于轨迹的预测bounding box的质量,而在复杂的场景或者现实场景下,由于摄像机的运动,导致预测bounding box的正确位置可能会失败,这就导致了预测bounding box和检测得到的bounding box两者之间的低重叠,最终导致跟踪器性能低下。
  • 在数据关联阶段,使用 IOU 往往可以得到更好的 MOTA,而 Re-ID 获得更高的IDF1。所以在本论文中,将IOU和Re-id融合使用。

修改卡尔曼滤波状态向量和其他矩阵参数

  起初,在SORT中的卡尔曼滤波的状态参数有7位 x = [ x c , y c , s , a , x c ˙ , y c ˙ , s ˙ ] x=[x_c,y_c,s,a,\dot{x_c},\dot{y_c},\dot{s}] x=[xc,yc,s,a,xc˙,yc˙,s˙],其中s表示边界框的比例(面积),a表示边界框的宽高比。在DeepSORT中卡尔曼滤波的状态参数有8位 x = [ x c , y c , a , h , x c ˙ , y c ˙ , a ˙ , h ˙ ] x=[x_c,y_c,a,h,\dot{x_c},\dot{y_c},\dot{a},\dot{h}] x=[xc,yc,a,h,xc˙,yc˙,a˙,h˙],将边界框比例s换成了边界框的高。但是作者通过实验发现,即使使用DeepSORT中的状态参数,但是预测出来的边界框,任然有些问题。如下图:
卡尔曼滤波器状态参数修改
  通过上图可以发现,在DeepSORT使用的状态参数下预测出来的bounding box框不能完整的将目标框住(蓝色虚线框),如此一来,在使用 IOU 进行数据关联的时候,可能就会出现问题。因此作者将卡尔曼滤波器的状态参数设置为 x k = [ x c ( k ) , y c ( k ) , w ( k ) , h ( k ) , x c ( k ) ˙ , y c ( k ) ˙ , w ( k ) ˙ , h ( k ) ˙ ] x_k=[x_c(k),y_c(k),w(k),h(k),\dot{x_c(k)},\dot{y_c(k)},\dot{w(k)},\dot{h(k)}] xk=[xc(k),yc(k),w(k),h(k),xc(k)˙,yc(k)˙,w(k)˙,h(k)˙]
  既然卡尔曼滤波器的状态参数修改了,那么对应的也需要修改初始化的参数矩阵(过程噪声、测量噪声)以满足整体的修改预测。
修改公式

相机的运动补偿

  track-by-detection范式的跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠。在动态相机情况下,图像平面中的边界框位置可能会发生显著变化,这可能会导致 ID 切换或假阴性增加,如下图所示。
相机的运动补偿
  静态相机场景中的跟踪器也可能因振动或漂移引起的运动而受到影响,就像在 MOT20 中一样,在非常拥挤的场景中,ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动,来自相机姿态的变化,以及物体的非刚体运动。由于缺乏关于相机运动的额外数据(例如导航、IMU 等)或相机内参,2个相邻帧之间的图像配准是相机刚性运动在图像平面上投影的良好近似。
  作者提出使用传统的方式 Global motion compensation (GMC) ,用OpenCV中的提取图像关键点技术对背景提取特征描述子(类似ORG、SIFT、SURF),并且通过特征点进行稀疏光流跟踪来使用RANSAC计算并获取背景运动的仿射变换矩阵,以此通过前后帧的运动信息生成仿射变换矩阵来预测行人边界框,称为运动补偿,仿射变换矩阵平移部分只会影响中心点位置,而其它的影响状态向量和噪声矩阵。由此作者给出了运动校正的等式方程:
相机运动补偿

IOU与Re-ID的融合

个人认为与其说是融合,不如说是如何选择,也就是说在什么样的情况下选择使用IOU来进行数据关联,什么情况下使用Re-ID来进行数据的关联。作者的思想其实很简单,就从IOU距离和余弦相似度距离二者中选择最小的那个,只不过余弦相似度值要先进行一步处理。公式如下:
IOU与reid融合

实验效果

MOT17:

MOT17数据集

MOT20:

MOT20数据集效果

借鉴来源

BoT-SORT 论文笔记及思考
屠榜多目标跟踪!BoT-SORT:稳健的关联多行人跟踪

本人能力有效,对文章理解可能不够透彻,有问题欢迎指正!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值