CVPR 2023 | TPVFormer:只用图像就达到LiDAR的占用预测效果

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到Garfield来分享CVPR2023最新的TPVFormer,只用图像就达到LiDAR的占用预测效果。如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【占用网络】技术交流群

自动驾驶之心原创 · 作者 | Garfield

编辑 | 自动驾驶之心

后台回复【OccupancyNetwork】获取Occupancy Network相关论文干货资料!

1. 引言

d85447f21cf174583e1f032aa4e2406c.png

准确全面地感知三维环境在自动驾驶系统中扮演着重要角色。基于视觉的三维感知最近作为一种有希望的替代方案出现,可以从二维图像中有效地提取三维信息,与基于激光雷达的方法相比。尽管缺乏直接的深度信息感知,但由周围摄像头支持的视觉模型在各种三维感知任务中展现出有希望的表现,如深度估计,语义地图重建和三维物体检测。

三维环境感知的核心在于如何有效地表示三维场景。传统方法将三维空间分解成体素,并为每个体素分配向量来表示其状态。尽管这种方法很准确,但大量的体素数量对计算提出了巨大挑战,需要使用稀疏卷积等专门技术。由于室外场景中的信息不是各向同性分布的,现代方法将高度维度折叠,并主要关注地面平面(俯视图),因为这里的信息变化最大。它们隐式地将每个对象的三维信息编码为每个BEV网格中的向量表示。尽管更高效,基于BEV的方法在三维物体检测任务上表现出色。这是因为三维物体检测仅需要对常见物体(如汽车和行人)进行粗略边界框的预测。然而,在实际场景中可能会遇到各种三维结构的物体,使用平面化的向量表示编码所有这些物体是困难的(如果不是不可能的)。因此,需要对三维环境进行更全面、更细致的理解,以实现更安全、更稳健的基于视觉的自动驾驶系统。但是,仍然不清楚如何将BEV泛化为能够对细粒度三维结构进行建模的方法,同时保持其效率和检测性能。

本文在这个方向上取得了进展,提出了一种三视角视图(TPV)表示来描述三维场景。受最近显式-隐式混合场景表示方法的进展的启发,作者通过将BEV与两个垂直平面相伴来构建三个彼此垂直的交叉平面。每个平面从一个视角模拟三维环境,将它们组合起来提供了对三维结构的全面描述。具体来说,为了获得三维空间中点的特征,作者首先将其投影到每个平面上,并使用双线性插值来获取每个投影点的特征。然后将三个投影特征相加,作为三维点的全面特征。因此,TPV表示能够以任意分辨率描述三维场景,并为三维空间中的不同点生成不同的特征。作者进一步提出了一种基于Transformer的编码器(TPVFormer),以有效地从二维图像中获取TPV特征。作者首先在TPV网格查询和相应的二维图像特征之间执行图像交叉注意力,将二维信息提升到三维空间。然后,在TPV特征之间执行交叉视图混合注意力,以实现三个平面之间的相互作用。

作者提出了基于三视角视图(TPV)表示的基于视觉的三维语义占据预测方法,并在nuScenes和SemanticKITTI两个代理任务上进行了定量评估。作者的模型只使用RGB图像作为输入,并在LiDAR分割任务上达到了与基于LiDAR的方法相当的性能。可视化结果显示,TPVFormer在只有稀疏点监督的情况下产生了一致的语义体素占据预测,证明了TPV在三维环境感知中的优越性。

2. 方法

61e49687c67391093d7dc1f02e80ff3a.png

2.1 Generalizing BEV to TPV

自动驾驶感知通常需要对复杂的三维场景进行表达,其中体素表示和鸟瞰图(BEV)表示是最常用的两种框架。体素表示使用密集的立方体特征来描述一个三维场景,其中,,是体素空间的空间分辨率,表示特征维度。一个位于实际世界中的随机点通过一对一的对应关系映射到其体素坐标,并通过在处采样来获得相应的特征。需要注意的是,如果体素空间与实际世界对齐,则投影函数由简单的缩放和刚性变换组成。因此,体素表示保留了实际世界的维度,并可通过适当的提供足够的表达能力。然而,体素特征的存储和计算复杂度与成比例,使得在实时车载应用中部署它们变得具有挑战性。

作为一种流行的替代方案,BEV表示使用二维特征图来表示三维场景的俯视图。与体素表示不同,点通过仅使用地面平面的位置信息投影到其BEV坐标,而不考虑轴。从中采样的每个特征对应于一个覆盖实际世界轴上全部范围的柱形区域。因此,BEV表示中采样的特征对应于具有相同但在轴上具有不同高度的点的特征,其中是点到BEV投影函数。尽管BEV表示大大降低了存储和计算负担,将完全省略轴对其表达能力产生了负面影响。

为了解决这一问题,本文提出了Tri-Perspective View。能够在不压缩任何轴的情况下对整个三维空间进行建模。TPV表示由三个正交的TPV平面组成,分别表示三维场景的顶部、侧面和前面视图。与体素相比,TPV表示可以在保持高表达力的同时,降低存储和计算复杂度。与BEV相比,TPV表示能够提供更全面和细粒度的对三维场景的理解。为了实现TPV表示,文章学习了三个轴对齐的正交TPV平面,并分别表示三维场景的三个视图。三个平面的分辨率为,特征维度为。在不同的视角下观察复杂的场景可以提供关于场景的互补线索,因此TPV平面能够更好地理解场景。

Point Querying formulation:给定实际世界中的一个查询点,TPV表示试图聚合其在顶部、侧面和前面视图上的投影,以获得关于该点的综合描述。为此,首先将该点投影到TPV平面上以获得坐标,在这些位置上采样TPV平面以检索相应的特征,并聚合这三个特征以生成最终的。相应的采样和聚合函数分别使用双线性插值和求和实现。TPV表示的三个投影函数对相关坐标进行简单的缩放。与点查询公式等价,TPV平面沿各自的正交方向扩展并相加,构成类似于体素特征空间的全尺度三维特征空间,但存储和计算复杂度仅为,比体素表示低一个数量级。

与BEV表示相比,TPV表示的三个平面彼此垂直,沿着一个平面的正交方向的点特征被来自另外两个平面采样的特征所丰富,而这在BEV表示中被忽略。此外,每个TPV平面中的网格特征仅负责相应柱形区域的视图特定信息,而不像BEV中编码完整信息。

2.2. TPVFormer

TPV(Top-View, Pillar-View, Front-View)是一种三维物体感知表示方法,它将三个视角的特征投射到三个平面上,从而能够更全面、更细致地理解三维环境。TPVFormer是一种基于Transformer的TPV编码器,用于将图像特征提升到TPV平面。它采用了TPV查询、图像交叉注意力(ICA)和跨视图混合注意力(CVHA)等组件来实现有效的TPV平面生成。TPVFormer由个混合交叉注意力块(HCAB)和个混合注意力块(HAB)构建,其中HCAB块由CVHA和ICA注意力组成,用于从图像特征中有效地查询视觉信息。HAB块由CVHA注意力组成,用于上下文信息编码。TPV的主要组件包括:

  1. TPV Queries:一种从相应柱形区域编码视图特定信息的特征向量,它将TPV编码器中的图像特征提升到三个平面上。在TPVFormer中,每个TPV查询都是一个网格单元特征,属于三个平面中的一个,并用于编码来自相应柱形区域的视图特定信息。TPV查询通过可学习参数进行初始化,并添加了3D位置嵌入以在三维空间中表示。

  2. Image Cross-Attention:用于将多尺度和可能来自多个摄像头的图像特征提升到TPV平面。考虑到TPV查询数量(约为个)和图像特征数量(每个图像特征约为个像素)的高分辨率特性,使用完整的交叉注意力计算是不可行的。因此,TPVFormer使用了可变形注意力来实现图像交叉注意力,其中TPV查询从图像特征中采样参考点,并通过可变形注意力聚合图像特征。

  3. Cross-View Hybrid-Attention:用于在TPV三个平面之间进行交互,以实现上下文信息的编码。它使用可变形注意力在三个平面之间进行交互,并允许查询在不同视图之间交换信息,从而获得更全面的上下文信息。在TPVFormer中,每个查询将其参考点分为三个子集,分别对应于三个平面,然后使用可变形注意力在三个平面之间进行交互。跨视图混合注意力有助于提高三维物体感知的准确性和鲁棒性。

3. 实验

6944da5c1c5641167a7f3abd5b5d7459.png

该研究进行了三种类型的实验,包括3D语义占据预测、LiDAR分割和语义场景完成(SSC)。前两个任务在Panoptic nuScenes数据集上进行,最后一个任务在Semantic KITTI数据集上进行。对于所有任务,研究只使用RGB图像作为输入。在3D语义占据预测任务中,研究提出了一种实用但具有挑战性的任务,通过只使用稀疏的语义标签(LiDAR点)进行训练,要求模型在测试过程中为所关注的3D空间中的所有体素产生语义占据预测。在LiDAR分割任务中,研究使用RGB图像作为输入,并利用点云对其进行特征查询和训练监督。在语义场景完成任务中,研究使用RGB图像作为输入,并预测每个体素的占据和语义标签,使用体素标签对训练过程进行监督。研究在TPV表示中采用体素特征的形式,并采用IoU评估占据体素在场景完成(SC)任务中的表现,采用所有语义类别的mIoU评估在SSC任务中的表现。该研究是第一个在实际应用中有效地解决了语义占据预测任务的方法。

65dbeca63d4191df74768d2bf72a4733.png

观察表格结果可以看出,基于LiDAR的方法通常优于作者提出的基于相机的方法。这是因为LiDAR提供了更精确、密集的3D点云数据,非常适合用于分割任务。在基于LiDAR的方法中,DRINet++的平均交并比(mIoU)最高,为80.4%,紧随其后的是LidarMultiNet,其mIoU为81.4%。这两种方法在大多数类别中都取得了出色的结果,其中DRINet++在屏障、公交车和固定车辆类别中得分最高,而LidarMultiNet在汽车、行人和卡车类别中得分最高。有趣的是,作者提出的基于相机的方法TPVFormer-Base取得了相对较高的mIoU,为69.4%,可与PolarNet、PolarSteam和JS3C-Net等多个基于LiDAR的方法相媲美。这表明作者的采用相机为基础的方法结合变压器模型的架构,在LiDAR分割任务上是有效的,尽管其输入模态不如LiDAR数据丰富。然而,需要注意的是,相机为基础的方法在一些类别中表现比基于LiDAR的方法差很多,例如自行车、摩托车和行人等类别。这可能是因为这些类别在仅使用相机数据进行分割时更难以区分,因为它们比车辆和公交车等更大的物体更小,视觉特征不太明显。因此,可能需要引入其他信息来源,如雷达或热传感器,以提高这些类别的分割准确性。总的来说,表格中的结果展示了不同模态在LiDAR分割任务中的优势和局限性。虽然LiDAR数据提供了最精确和密集的3D点云,但使用变压器模型等先进架构,相机为基础的方法仍然可以取得竞争性的结果。然而,仅使用相机数据准确分割更小和视觉特征不太明显的物体仍然存在挑战,需要解决。因此,可能需要引入其他信息来源,例如雷达或热传感器,以提高这些类别的分割准确性。

da309d21ce22454e1cda2390eee67cf7.png

在3D语义占据预测任务中,该方法能够更全面、更准确地捕捉环境中的物体信息,因此产生的结果比LiDAR分割的标准结果更密集、更逼真,验证了TPV表示在建模3D场景和语义占据预测方面的有效性。在LiDAR分割任务中,该方法在仅使用RGB图像作为输入的情况下,可以与大多数基于LiDAR的方法相媲美,达到了约70%的mIoU。在语义场景完成任务中,该方法在SemanticKITTI测试集上的结果优于现有的基于3D卷积的方法,表明TPV表示在占据和语义预测方面的有效性。此外,该方法在参数数量和计算复杂度上具有显著优势。研究还进行了分辨率和特征维度的消融实验,并提供了更多的可视化结果。总之,该研究提出的基于TPV表示的方法在视觉感知中具有广泛的应用前景。

4. 讨论

278ea0138851827726e36ee2ca30b6a7.png

TPV是一种三维物体感知表示方法,可以应用于自动驾驶、智能交通、机器人导航、工业自动化、安防监控等领域。通过将多个视角的传感器数据投影到三个平面上,TPV可以更全面、更准确地捕捉环境中的物体信息,并实现目标检测、跟踪、路径规划、物体检测和定位等任务。随着传感器技术的不断发展和算法的不断优化,TPV方法将在更多领域得到应用,并为实现智能化、自动化的未来提供强有力的支持。

尽管TPV是一种有效的三维物体感知表示方法,但它也存在一些限制:

  1. 依赖于传感器:TPV方法需要多个视角的传感器数据,例如相机、激光雷达等,才能够生成三个平面上的特征表示。这意味着在没有足够传感器数据的情况下,TPV方法可能无法很好地适应。

  2. 处理动态物体:对于移动的物体,TPV方法可能会出现遮挡和重叠现象,导致物体的几何形状不完全被捕捉到。此外,TPV方法对于动态物体的运动模式也缺乏明确的建模方法。

  3. 计算复杂度:由于TPV方法需要对多个视角的数据进行处理,因此其计算复杂度较高,需要大量的计算资源。这可能导致TPV方法在实时应用中无法满足实时性的要求。

  4. 对于不同场景的泛化性:TPV方法的泛化性还需要进一步探索和提高。由于不同场景的物体分布和几何形状可能存在很大差异,因此在不同场景下,TPV方法的性能可能会受到影响。

  5. 对于小物体的检测:由于TPV方法的特征表示是基于柱形和网格单元的,因此对于小尺寸的物体,可能会出现分辨率不足的情况,导致检测精度下降。

  6. 对于自遮挡和遮挡情况:TPV方法可能无法很好地处理自遮挡和遮挡情况,导致物体的几何形状不完全被捕捉到。

虽然TPV方法是一种有效的三维物体感知表示方法,但它也存在一些限制,需要在实际应用中结合具体场景和应用需求进行综合考虑。

5. 结论

本文提出了一种三视角(TPV)表示法,能够有效地描述3D场景的细粒度结构。为了将图像特征提升到3D TPV空间,我们提出了基于注意力机制的TPVFormer模型。可视化结果表明,我们的TPVFormer在训练过程中仅使用稀疏点监督就能够产生一致的语义体素占用预测。我们首次证明我们的基于视觉的方法在nuScenes LiDAR分割任务上取得了与基于LiDAR的方法相当的性能。

6.参考

[1] Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,如果您希望分享到自动驾驶之心平台,欢迎联系我们!

(一)视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

8d966bf36cedb9b2a4f238f583243539.png

(扫码学习最新视频)

视频官网:www.zdjszx.com

(二)国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

2214db0eab8194f00d9e7b604dba567f.jpeg

(三)【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

2b0649ab2e78c7da4621a859c81705ea.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值