论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

最新推荐文章于 2024-10-27 08:15:00 发布

fishfuck

最新推荐文章于 2024-10-27 08:15:00 发布

阅读量1.1k

点赞数 29

分类专栏：论文阅读文章标签：论文阅读 3d

本文链接：https://blog.csdn.net/fishfuck/article/details/141439895

版权

论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Abstract

以视觉为中心的自动驾驶感知的现代方法广泛采用鸟瞰图（BEV）表示来描述3D场景。尽管它的效率比体素表示更好，但它很难用单个平面描述场景的细粒度3D结构。为了解决这个问题，我们提出了一种三透视图（TPV）表示，它伴随着BEV和两个额外的垂直平面。我们通过总和其在三个平面上的投影特征来对3D空间中的每个点进行建模。为了将图像特征提升到3D TPV空间，我们进一步提出了一种基于Transformer的TPV编码器（TPVFormer）来有效地获取TPV特征。我们采用注意力机制来聚集与每个TPV平面中的每个查询对应的图像特征。实验表明，我们用稀疏监督训练的模型可以有效地预测所有体素的语义占用。我们首次证明，仅使用相机输入即可实现与基于LiDAR的方法相当的性能。代码：https://github.com/wzzheng/TPVFormer.

为了展示TPV的优越性，我们制定了一个实用而具有挑战性的基于视觉的3D语义占有率预测任务，其中只提供稀疏的激光雷达语义标签用于训练，测试需要所有体素的预测，如图2所示。然而，由于在这种具有挑战性的环境下没有提供基准，我们只对两个代理任务进行了定性分析，但提供了定量评估：nuScenes[4]上的激光雷达分割(稀疏训练，稀疏测试)和SemantiKITTI[2]上的3D语义场景完成(密集训练，密集测试)。对于这两个任务，我们只使用RGB图像作为输入。对于LiDAR分割，我们的模型只使用点查询的LiDAR数据来计算评估指标。可视化结果表明，TPVFormer在训练过程中只需要稀疏点监督就能产生一致的语义体素占用预测，如图1所示。我们还首次证明了我们的基于视觉的方法在LiDAR分割上取得了与基于LiDAR的方法相当的性能。

3. Proposed Approach

3.1. Generalizing BEV to TPV

自动驾驶感知通常需要复杂3D场景的富有表现力和高效的表示，其中体素和鸟瞰图（BEV）表示是两种最广泛采用的框架。体素表示[26，43，48]描述了具有密集立方体特征的3D场景 $\mathbf{V}\in\mathbb{R}^{H\times W\times D\times C}$ ，其中 $H$ 、 $W$ 、 $D$ 是体素空间的空间分辨率， $C$ 表示特征维度。现实世界中位于 $(x, y, z)$ 处的随机点通过一一对应 $\mathcal{P}_{vox}$ 映射到其体素坐标 $(h, w, d)$ ，所得特征 $\mathrm{f}_{x,y, z}$ 通过在 $(h, w, d)$ 处对 $\mathrm{V}$ 进行采样来获得：
$\begin{aligned}\mathrm{f}_{x,y,z}=\mathrm{v}_{h,w,d}&=\mathcal{S}(\mathrm{V},(h,w,d)),\\&=\mathcal{S}(\mathrm{V},\mathcal{P}_{vox}(x,y,z)),\end{aligned}$
其中 $\mathcal{S}(arg1,arg2)$ 表示在 $a r g 2$ 中指定的位置处采样 $a r g 1$ ， $\mathbf{v}_{h,w,d}$ 是采样的体素特征。请注意，如果体素空间与现实世界对齐，投影函数 $\mathcal{P}_{vox}$