CVPR 2022 | PTTR: 基于Transformer的三维点云目标跟踪

最新推荐文章于 2024-02-01 16:04:57 发布

3Ｄ视觉工坊

最新推荐文章于 2024-02-01 16:04:57 发布

阅读量2.9k

点赞数 2

文章标签：算法大数据编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247610366&idx=2&sn=b49d1e74d3600aa1863980e4364997a6&chksm=fbfd04cacc8a8ddc70237b3b0c55d57652a7640ecc27d54711f8d830b746715513c46ac60172&scene=126&&sessionid=0

版权

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨罗志鹏

来源丨商汤学术

导读

在CVPR 2022上，商汤研究院团队提出了基于Transformer的3D点云跟踪模型PTTR。PTTR首先在特征提取阶段提出利用特征关联进行采样以保存更多跟被跟踪物体相关的点，然后设计了点云关联Transformer模块进行点云特征匹配。最后，PTTR提出一个轻量化的预测修正模块来进一步提升预测的准确性。实验结果显示PTTR在多个数据集上获得显著精度提升。

论文名称: PTTR: Relational 3D Point Cloud Object Tracking with Transformer

问题和挑战

目标跟踪是一个基础的计算机视觉任务，在图像数据上已经获得了广泛的研究。近年来，随着雷达技术的发展，基于点云的目标跟踪也获得了更多的关注。点云数据有一些特有的挑战，比如点云的稀疏性、遮挡以及噪声。这些特点让我们无法直接使用基于图像的算法进行跟踪，而基于点云的跟踪算法目前还没有得到充分研究。点云跟踪的一大挑战是当物体离传感器较远时，稀疏的点云会给跟踪带来很大困难。另外，现有的点云跟踪算法主要采用余弦相似度这种线性方法进行特征的匹配，存在较大的提升空间。

方法介绍

针对以上提出的问题，我们提出了一个新颖的点云跟踪框架，如下图所示。模型分为三个阶段：在特征提取阶段，我们提出了一种新的关系感知采样方法(Relation-Aware Sampling)，利用模板和搜索区域的特征关系来进行采样，从而保存更多的前景点。在特征匹配阶段，我们提出了一个点云关系Transformer结构（Point Relation Transformer），对模板和搜索区域的特征进行有效匹配。最后我们提出一个预测修正模块（Prediction Refinement Module），通过特征采样的方式来进一步提高预测的准确性。

1. 关系感知采样(Relation-Aware Sampling)

点云的稀疏性是跟踪算法的一大挑战，而点云的特征提取通常伴随着下采样的过程。现有跟踪算法大多采用随机采样的方式，会在采样过程中在搜索区域丢掉大量的前景点，不利于后续的特征匹配。所以我们提出关系感知采样，利用模板和搜索区域的特征距离进行采样。由于模板区域大多数由目标物体上的点云组成，因此我们在搜索区域采样那些特征距离和模板尽可能小的点，就能尽可能地得到更多的前景点。如下图所示，我们对比了不同的采样方法，采样得到的点中位于3维目标框中的比例，可以明显地看到我们提出的关系感知采样最大程度地得到了前景点。

2. 关系增强匹配(Relation-Enhanced Feature Matching)

在跟踪问题中，我们需要匹配模板和搜索区域的点，大多数已有的3D单目标跟踪算法采用了特征的余弦距离，认为余弦距离小的点匹配程度高。与此不同的是，我们基于注意力机制在计算机视觉中的成功应用，设计了基于关系的注意力机制，来匹配模板和搜索区域的点云。如下图所示，我们设计的注意力模块利用了offset-attention，将query，key，value特征进行融合，并通过激活层引入非线性。具体来说，我们先通过一个self-attention模块来分别处理模板和搜索区域点云，接着我们将搜索区域点云作为query，模板区域点云作为key和value，输入到一个cross-attention，就得到了匹配之后的搜索区域点云特征。

3. 从粗到细的预测(Coarse-to-Fine Tracking Prediction)

大多数已有的3D单目标跟踪算法都简单地使用了3D检测器的预测模块，例如Votenet，RPN等。我们认为类似的检测预测模块不可避免地引入了多余的计算，导致了效率的降低。因此我们提出了一个新的预测修正模块，该模块通过从模板点云，搜索点云，融合后的搜索点云分别取出对应点云特征，将他们结合后直接预测。本质上，我们让搜索区域的每一个点，通过不同阶段的特征预测一个proposal。在inference阶段，我们将得分最高的那个proposal作为预测结果。

4. 数据集

除了方法上的贡献，我们还提出了一个基于Waymo Open Dataset新的大规模点云跟踪数据集。由于Waymo中对于每个目标都标注了对应的ID，因此可以提取出某个ID在不同时刻的位置信息，基于此，我们制作了Waymo的单目标跟踪数据集，如下表所示，我们制作的Waymo跟踪数据集在数据量上远远超过了KITTI，为学术界在大数据集上进一步的研究提供了一个baseline。

5. 实验

我们在KITTI， Waymo数据集上分别对比了PTTR和其他模型的效果，如下表所示，可以看到PTTR相比于已有的方法的优势。

为了验证每个模块的效果，我们进行了各种消融实验，实验结果也验证了我们提出的每个模块的有效性。

结语

在本文中，我们提出了一种新的3D点云跟踪模型。它利用关系感知采样来缓解点云稀疏的问题，利用Transformer的注意力机制完成有效的特征匹配，并且利用局部特征采样来进一步提升预测准确性。实验表明我们提出的该方法有效提高了点云跟踪的性能。

传送门

PTTR 的相关代码目前已经开源，欢迎各位同学使用和交流。

论文地址

https://arxiv.org/pdf/2112.02857.pdf

项目地址

https://github.com/Jasonkks/PTTR

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：