超过所有视觉方案！HTCL：分层时间上下文问鼎OCC（ECCV'24）

最新推荐文章于 2024-07-21 00:01:30 发布

自动驾驶之心

最新推荐文章于 2024-07-21 00:01:30 发布

阅读量691

点赞数 23

本文链接：https://blog.csdn.net/CV_Autobot/article/details/140483099

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享ECCV2024最新的工作—HTCL！在SemanticKITTI基准测试中超过了所有基于相机的方法，甚至在和OpenOccupancy基准测试中超过了LiDAR！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『占用网络』技术交流群

论文作者 | Bohan Li等

编辑 | 自动驾驶之心

本文是对ECCV2024接受的文章 HTCL: 的介绍，HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法，甚至在和OpenOccupancy基准测试中超过了LiDAR，实现了最先进的性能。代码已开源，欢迎大家试用和Star~

代码链接：https://github.com/Arlo0o/HTCL
论文链接：https://arxiv.org/abs/2407.02077

Demo video 展示：

我们对比了同样采用时序双目图像输入的VoxFormer-T，并用更少的输入帧数（3 vs. 4）取得了更好的预测效果，在场景整体布局、相机视野外区域、远距离动态物体等的预测中表现出明显优势。

Motivation

基于相机的三维语义场景补全（SSC）对于从有限的二维图像观测中预测复杂的三维场景信息至关重要。现有的主流解决方案通过对历史帧信息的粗略堆叠来试图补充当前视角下的不完整观测，这种简单的时序建模方式不可避免地减少了有效的视觉线索，增加了模型学习难度。

为了解决上述问题，我们提出了HTCL，一种新颖的分层时序上下文学习范式，用于改进基于相机的语义场景补全。HTCL将时序上下文学习分解为两个层次步骤：(a)跨帧亲和度测量；(b)基于亲和度的动态细化。首先，为了从冗余信息中分离关键相关上下文，我们提出了尺度感知隔离策略，用于构建多个独立的学习模块，进而建模细粒度上下文对应关系。随后，为了动态补偿不完整的观测结果，我们基于识别出的具有高亲和度特征的空间位置及其邻近的相关区域，自适应地细化特征采样位置。

Method

我们提出的分层时序上下文学习（HTCL）范式可以有效改进时序特征聚合的可靠性，从而实现精确的三维语义场景补全。HTCL从不同时间帧的RGB图像中分层地推断三维语义Occupancy，以实现细粒度的场景理解。如下图所示，我们提出的分层时时序下文建模包括两个顺序步骤：(1)显式地测量当前帧和历史帧之间的上下文特征亲和力，提取最相关的高亲和度特征；(2)基于高亲和力特征的空间位置及其附近的相关上下文自适应地细化采样位置，以动态补偿不完整的观测。HTCL在创新性方面主要做出了以下贡献：

提出了一种时序上下文学习范式，以用于动态和可靠的三维语义场景补全。
提出了一种具有尺度感知隔离和多个独立学习模块的亲和度测量策略，用于细粒度的上下文对应关系建模。
提出了一个基于亲和度的动态细化方案，以重新分配时序上下文信息，并自适应地补偿不完整的观测结果。
HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法，甚至在和OpenOccupancy基准测试中超过了LiDAR，实现了最先进的性能。

如上图所示，我们提出的方法整体框架主要由三个部分组成：Aligned Temporal Volume Construction，Voxel Feature Volume Construction，以及Reliable Temporal Aggregation。

Aligned Temporal Volume Construction 为了构建时序特征体积，我们将当前帧和历史帧图像输入一个轻量级的 PoseNet 中，通过单应变换生成。与典型的深度估算方案中构建匹配代价体积不同，我们构建特征体积而不计算匹配值来充分保留细粒度上下文特征，这一设置主要是由于语义场景补全从根本上说不是一项匹配任务，而是一个密集感知和重建问题。因此，我们不是直接计算volume内的匹配成本，而是优先维护细粒度特征上下文，并额外构建跨帧亲和度矩阵用于量化时序信息间的相关性
Voxel Feature Volume Construction 为了构建体素特征体积，我们首先使用了基于预训练的EfficientNetB7的UNet骨干网来生成空间维度为的特征, 然后根据 LSS （Lift, splat, shoot）范式进行扩展，对上下文特征和深度分布做外积建立体素特征量。我们的架构支持单目或双目输入，可以采用经典的Adabins，LEAStereo等基于体积预测的深度预估方法获取深度分布信息。
Reliable Temporal Aggregation 我们在时序特征体积中构建跨帧亲和度，用于量化当前特征与历史特征之间的上下文对应关系，并进一步重组和动态优化，从而得到可靠的时序特征并与体素特征体积聚合。其中跨帧模式亲和（CPA）主要引入了两个关键步骤以适配细粒度SSC中的相关性度量：1. 从多组上下文中纳入不同的pattern尺度，对 SSC 中细粒度表征进行多样化的相似度学习。2. 通过规模感知隔离生成余弦相似度，并将其聚合用于可靠的模式亲和性测量。

效果如下图所示，跨帧模式亲和（CPA）有效地表示了时间内容中的上下文对应关系。

鉴于我们的目标是完成并理解与当前帧相对应的三维场景，因此必须为最相关的位置分配更大的权重，同时也需要调查其邻近的相关区域以弥补不完整的观察结果。为此，我们提出基于亲和力的动态细化（ADR），根据已确定的高亲和性位置及其邻近相关区域，用三维可变形卷积自适应地改进特征采样位置。具体来说，我们通过引入基于亲和力的对应权重和可变形位置偏移来实现动态细化:

为了进一步通过分层上下文推理动态建模，我们通过考虑级联的不同特征层上下文信息：

Experiment

实验表明，我们的方法在SemanticKITTI Benchmark上排名第一，并在OpenOccupancy BenchMark中取得了超过基于LiDAR方法的mIoU。

定量实验结果：

在SemanticKITTI基准测试中，我们提出的方法明显优于所有其他方法。与VoxFomer-T相比，我们的方法即使在较少的历史输入（3 vs. 4）中也取得了显著的相对增益。在OpenOccupancy基准测试中，尽管基于LiDAR的在IoU方面具有固有的优势，但我们的HTCL在mIoU方面超过了所有其他方法（包括基于LiDAR的LMSCNet和JS3C-Net ），证明了我们的方法在语义场景补全方面的有效性。

定性试验结果：

图5展示了我们提出的方法与VoxFormer在SemanticKITTI上的定性比较。可以观察到，真实世界的场景非常复杂，而注释的地面实况相对稀少，这给从有限的视觉线索中完全重建语义场景带来了挑战。与 VoxFormer 相比，我们的方法能捕捉到更完整、更准确的场景布局（如第二行和第三行的十字路口）。此外，我们的方法还能有效地补全摄像机视野外更多合适的景物（如第一行和第二行中的阴影区域），并在移动物体（如第二行中的卡车）方面表现出明显的优势。图6展示了我们的方法在 OpenOccupancy 上的预测结果，我们提出的方法与GT相比，可以生成的结果更密集、更真实的Semantic Occupancy。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频