PillarTrack：重新思考基于Pillar的点云单目标跟踪网络

最新推荐文章于 2024-05-03 00:15:05 发布

自动驾驶之心

最新推荐文章于 2024-05-03 00:15:05 发布

阅读量204

点赞数 1

文章标签：目标跟踪人工智能计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247602850&idx=4&sn=1e575355f9a639608a3d67f53acb36c9&chksm=cf9406ad3f0ddc36be790ceb247cea0300bb172107069532f72c211d7e2692625a4330b818f7&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『目标跟踪』技术交流群

原标题：PillarTrack: Redesigning Pillar-based Transformer Network for Single Object Tracking on Point Clouds

论文链接：https://arxiv.org/pdf/2404.07495v1

代码链接：https://github.com/StiphyJay/PillarTrack

作者单位：南昌大学东南大学 Houmo AI

论文思路：

基于激光雷达的三维单目标跟踪（3D SOT）在机器人技术和自动驾驶领域是一个关键问题。它旨在基于相似性或运动从搜索区域获取精确的三维边界框（BBox）。然而，现有的3D SOT方法通常遵循基于点的流程，在这一流程中，采样操作不可避免地导致信息的冗余或丢失，从而导致意外的性能表现。为了解决这些问题，本文提出了PillarTrack，一个基于柱状结构的三维单目标跟踪框架。首先，本文将稀疏点云转化为密集的柱状结构以保留局部和全局的几何特征。其次，本文引入了金字塔式编码的柱状特征编码器（PE-PFE）设计来帮助每个柱状结构的特征表示。第三，本文从模态差异的角度出发，提出了一个高效的基于Transformer的主干网络。最后，本文基于上述设计构建了本文的PillarTrack跟踪器。在KITTI和nuScenes数据集上进行的广泛实验证明了本文所提方法的优越性。值得注意的是，本文的方法在KITTI和nuScenes数据集上均实现了最先进的性能，并且能够实现实时跟踪速度。本文希望本文的工作能够鼓励社区重新思考现有的3D SOT跟踪器设计。

主要贡献：

PE-PFE：采用金字塔型编码的柱状特征编码器（Pyramid-type Encoding Pillar Feature Encoder, PE-PFE）设计，用以对每个柱状结构的点坐标进行金字塔型表示编码，并在不增加额外计算开销的情况下带来性能提升。
感知模态的基于Transformer的主干网络：更适合点云模态，旨在增强特征表征。这种设计涉及对主干网络前端计算资源的简单调整，允许捕获输入点云的更多语义细节。
SOTA和开源：在KITTI和nuScenes数据集上的实验表明，本文的方法达到了最先进的性能。此外，本文将在 https://github.com/StiphyJay/PillarTrack 向研究社区开源本文的代码。

网络设计：

三维单目标跟踪（3D SOT）在自动驾驶和机器人技术中有着广泛的应用。给定第一帧中特定目标的初始状态（外观和位置），三维单目标跟踪旨在估计其在后续帧中的三维状态。现有基于激光雷达的三维单目标跟踪方法[1]–[7]通常遵循从二维视觉目标跟踪中借鉴的孪生范式，旨在实现运行时间和准确性之间的权衡。面对稀疏和不规则的输入点云，这些方法最初利用PointNet系列[8]、[9]学习逐点的区分性表征，然后通过特征聚合模块获得逐点的相似性。最后，他们基于这些相似性特征估计特定目标的状态。SC3D[10]作为首个基于激光雷达的三维孪生跟踪器，利用基于PointNet[11]的高效自编码器进行逐点特征编码。随后，像P2B[2]、3D-SiamRPN[1]、BAT[4]和PTT[3]、[12]这样的方法采用PointNet++[9]来提取更有效的逐点表征，并实现更优越的跟踪性能。然而，上述基于点的三维SOT方法的一个共同问题是需要将输入点重新采样为固定数量。例如，P2B[2]需要将搜索区域的输入点重新采样为1024个，模板点云(template point cloud)为512个，以对齐网络输入。这种重采样操作不可避免地引入了冗余或丢失信息的可能性，这可能会对性能产生不利影响。此外，依赖于三维空间中的点查询/检索（例如，PointNet++[9]）进行重新采样过程可能不利于高效的硬件实现。

为此，受到基于柱状结构的三维目标检测器[13]–[15]近期取得的进展的启发，考虑到它们的实时速度和高性能，本文将稀疏不规则的点云转换为密集规则的柱状表示。值得注意的是，三维SOT任务可以被视为在局部搜索区域内的特定三维目标检测任务，附加了模板点先验信息。因此，利用来自三维点云检测的先进原理来改进点云跟踪任务是自然而然的选择。具体而言，基于柱状结构的点云表示具有以下优势：（1）柱状表示是密集有序的，便于无需太多修改就与先进的基于二维图像的技术无缝集成。（2）柱状表示的紧凑特性减少了计算开销，同时保持了性能和速度之间理想的权衡。（3）柱状表示对部署友好，非常适合资源有限的设备，如移动机器人或无人机。特别是，柱状表示自然符合三维跟踪器的高实时性要求，使其非常适合跟踪任务。

目前，很少有工作[16]、[17]致力于基于柱状结构的三维单目标跟踪（3D SOT）点云研究。SMAT[16]通过将稀疏的三维点云转换为密集的柱状结构，然后利用 transformer-based 编码器进行多尺度特征提取和交互来解决这一差距，取得了有希望的结果。然而，SMAT直接采用了来自PointPillars[18]的简单柱状编码模块，这限制了柱状表示的质量。此外，它们的主干网络直接遵循为RGB图像量身定制的 vision transformers 的设计原则，这对于点云模态可能并不是最优的。PTTR++[17]引入了逐点视图和柱状视图的融合，以进一步增强PTTR[6]的性能。尽管如此，PTTR++在其流程中仍然涉及重采样操作，这带来了实际部署上的挑战。

本文提出了PillarTrack，这是一个基于柱状结构的三维单目标跟踪框架，旨在在提高跟踪性能的同时增强推理速度。首先，本文将稀疏无序的点云转换为密集规则的柱状表示，以减少由重采样操作造成的信息丢失，并提出了金字塔型编码的柱状特征编码器（PE-PFE）设计，以帮助每个柱状结构的特征学习。其次，本文从模态差异的角度出发，针对现有 transformer-based 主干网络进行了设计，并提出了一种适用于点云模态的、感知模态的 transformer-based 主干网络，以较少的GFLOPs实现更高的性能。最后，本文构建了本文的PillarTrack网络。在KITTI和nuScenes数据集上进行的广泛实验证明了本文所提方法的优越性。如图1所示，本文的方法在KITTI和nuScenes数据集上实现了最先进的性能，更好地平衡了速度和准确性，并满足了多样的实际需求。

图 1：在KITTI数据集上与其他三维单目标跟踪（3D SOT）方法的比较。本文根据主干网络架构对方法进行了分类，并报告了它们在成功率和精确度上的性能。

图 2：本文的PillarTrack网络架构。给定模板和搜索区域，本文首先使用PE-Pillar分别提取多尺度特征。然后，MAE通过在每个特征尺度上的注意力机制计算相似性，接着融合多尺度的相似性特征。最后，本文在特征融合图上应用检测头来定位目标。

图 3：PE-PillarVFE设计的示意图。本文以金字塔型方式编码输入点云的通道信息。这种金字塔型编码设计使得网络能够在没有输入信息丢失的情况下更有效地进行优化。

图 4：不同PFE设计的损失比较。

图 5：不同激活函数对降低Epoch损失的影响。特别是，LeakyReLU 激活函数与考虑中的其他两个函数相比，显示出更为明显的损失减少。

实验结果：

图 6：在KITTI数据集的汽车、行人和骑行者类别上，本文的PillarTrack与基准方法（SMAT [16]）的可视化结果比较。

总结：

本文提出了PillarTrack，这是一个基于柱状结构的三维单目标跟踪框架，它在减少计算开销的同时提高了性能。该框架引入了金字塔型编码的柱状特征编码器（PE-PFE）、一个感知模态的基于Transformer的主干网络，以及一个简单的激活函数替换。本文在KITTI数据集上进行的广泛实验证明了PillarTrack的卓越性能，实现了速度和准确性之间更好的权衡。基于上述设计及其效率，本文希望激励社区重新思考基于点云的三维单目标跟踪网络的设计。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频