探索自动驾驶领域中的3D多目标跟踪(ICCV 2021)

作者丨少年依旧如风@知乎

来源丨https://zhuanlan.zhihu.com/p/417445881

编辑丨3D视觉工坊

论文:Exploring Simple 3D Multi-Object Tracking for Autonomous Driving

论文地址:https://arxiv.org/pdf/2108.10312.pdf

一、动机

在2D多目标跟踪领域中,tracking-by-detection是常用的跟踪方法,该方法首先在每一帧上得到检测框,然后匹配帧间的检测框来完成跟踪任务。

对于3D多目标跟踪领域,tracking-by-detection的方法更是居于主导地位。

作者认为基于tracking-by-detection方法最大的弊端是,启发式匹配步骤通常需要人工设计匹配规则和调试相关参数。这在实际的工程应用中带来了诸多困难:

1.人工设计的规则受限于工程师的领域和先验知识,其效果往往不如基于数据驱动的方法好

2.调试匹配规则参数时,往往费时费力。比如在无人驾驶场景中需要检测和跟踪多种类别目标(车、行人、两轮车等等),手动调参时,需要针对每一类别进行特定调试。

3.传统方法可扩展性比较差,容易重复劳动——这个数据场景调好的参数,可能在另一个数据场景效果不佳,需要重新调试。

针对上述三个弊端,作者尝试在点云3D目标跟踪任务中去除启发式匹配步骤。

4a39d78e9910720953e3706b650aee24.png

作者提出的方法SimTrack,可以替换传统的tracking-by-detection模式,用于点云3D目标一体化检测和跟踪。该方法可以很方便地与基于pillar或者voxel的3D目标检测算法结合。SimTrack将目标关联、dead object清除、new-born object检测集成在了一起,降低了跟踪系统的复杂程度。

二、总体结构

给定原始点云数据,首先使用pillar或voxel方法将其体素化(voxelize),然后使用PointNet提取每个pillar或voxel的特征,在backbone中使用2D或3D卷积操作得到鸟瞰图特征。在detection head中使用centerness map上的位置表示目标所在位置,除了输出centerness map外,detection head还输出目标尺寸和朝向等信息。

算法的总体结构如下图所示:

f439067e0daf2d271dcfc221a10d3d54.png

dbb0b019d0259a061f5a71f237100c84.png

结合回归分支输出的目标属性信息,得到最终结果,如上图最右侧所示。在上图右侧框中,ID为1的目标表示dead object,它有比较低的置信度;ID为2~4的目标为检测并跟踪到的目标,ID为5的目标为新出现的目标(new-born object)。在推理时,对于初始时刻的点云,只将该帧点云单独作为算法的输入,得到检测结果用于初始化 。

算法流程图:

41a79a103a61d531143db7b9ae661bf2.png

三、Hybrid-Time Centerness Map

hybrid-time centerness map能够关联前一时刻与当前时刻的检测信息,同时还能滤除消失的目标,也可以检测新出现的目标。

3084ac65fd276afdb54d2e6e4834bac7.png

hybrid-time centerness map 结合下一节所描述的motion updating分支,可以直接关联当前时刻的检测结果和前一时刻的检测结果,从而构建起目标的跟踪身份。

四、Motion Updating Branch

f1e0f5cd3e52638db889994442a18fc9.png

五、其他回归分支

bb6ed4fcd5f5fb7f1f1fa8b682428837.png

7611c9b5eda91cc31b8f4164a869d509.png

七、实验

在实验时,使用PointPillars作为基于pillar的backbone,使用VoxelNet作为基于voxel的backbone,并分别在nuScenes和Waymo数据集上评估算法。

在nuScenes验证集和测试集上的测试结果如下表所示:

c7190d042eac8504ad233b04c71afdcf.png 2fec0167a53113e63d934eb316fae0a8.png a8a25f6d4b889cfc0cb2d046b32ea541.png

在Waymo验证集上的测试结果如下表所示:

51b7ed72d46f70df0f67a7f66540a21f.png

在nuScenes验证集上可视化的跟踪过程如下图所示:

69d3f1ce58d126d382ed37f42dcddd0a.png

八、结论

在本文中,作者提出了SimTrack,一种用于激光雷达点云三维多目标跟踪的端到端可训练模型,作者的方法采取了第一步来简化现有手工制作的跟踪管道,这些管道涉及复杂的启发式匹配和手动跟踪管理。通过将提出的混合时间中心图和运动更新分支相结合,作者设计在一个统一的模型中无缝地集成了跟踪对象关联、新生对象检测和死对象移除。大量的实验结果证明了方法的有效性。

九、附录

此外,作者在论文的最后进行了四个小节的阐述:

1.举例说明了具有代表性的匹配启发法和相关超参数如何影响跟踪性能

现有的跟踪方法在启发式匹配中涉及多个超参数。一些广泛使用的方法包括匹配阈值、为死区轨迹保留的最大帧数、初始化新轨迹之前的最小帧数等等。

在启发式匹配中,跟踪性能对超参数设置非常敏感。对于基于卡尔曼滤波的跟踪,协方差矩阵的设置对跟踪结果影响很大。

为了强调为启发式匹配步骤设置超参数的关键作用,作者进行了以两个具有代表性的超参数进行比较:最大年龄和最大距离。前者用于固定轨道在移除前保留一定数量的帧。当对象偶尔在几帧内被遮挡并再次显示时,这会有所帮助。后者确定允许匹配的距离阈值。

得到下图结果:

8f2ad7ba5528ec3d2e973003804511f3.png

2.介绍了SimTrack和CenterPoint之间的更多比较

作者提供了在不同召回率下SimTrack和CenterPoint之间MOTA和IDS的更详细比较。下图所示,作者提出的模型在高召回率下具有更少的身份切换:

4fd9809833cbb703341e7f6052c984f9.png

基于这一优势,作者又绘制了汽车、行人和摩托车的MOTA召回曲线,如下图所示:

cc56b76330c5f5f01396c3221efe5a1d.png

bd77e49f4c6e00b11e32bda2f21ea156.png

5397a94dff90885a5aa7f827809e68de.png

3.报告了模型的推断延迟

作者的联合检测和跟踪设计可以灵活地集成到三维目标检测网络中,并且只会给主干网络带来很小的计算开销。下表比较了仅检测模型和我们的联合检测和跟踪模型之间的推断延迟,该模型使用了基于支柱和体素的主干的不同中心度贴图分辨率。

196b804475a3ec636e1f6782bafda250.png

4.提供了有关nuScenes和Waymo的更多结果

除了简化和改进跟踪,SimTrack还可以提高检测精度。下表比较了SimTrack和CenterPoint的检测结果。

ac859b74e11c84ca41c87aa39ef5bd88.png

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

f30fe812e36503135e32f2ccacc97243.png

▲长按加微信群或投稿

e86f9a9c305747982d8cb29e7795be74.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

0100f7a57e49f7691545c7edee163f6e.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值