论小白读TPVFormer（粗读版）

自动驾驶之心

于 2024-08-29 07:30:55 发布

阅读量2

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247625374&idx=4&sn=71c3f477acb01f8291e00e48f1655403&chksm=cf79de6e99104a67615801ba4f946bdbef71d685ba2310a21f9aad5268da550b3eedb0097073&scene=126&sessionid=0

版权

作者 | Turner 编辑 | 自动驾驶Daily

原文链接：https://zhuanlan.zhihu.com/p/711913150

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『轨迹预测』技术交流群

本文只做学术分享，如有侵权，联系删文

1.来源

CVPR 2023 清华大学

2.Abstract

bev效率快，但是缺乏高度信息。occ信息丰富，但是太大了，消耗高。

动机：因此提出了一种三视角视图(TPV)表示，它伴随着BEV和两个额外的垂直平面。通过将 3D 空间中的投影特征相加来对 3D 空间中的每个点进行建模。为了将图像特征提升到 3D TPV 空间，作者进一步提出了一种基于变压器的 TPV 编码器 (TPVFormer)，以有效地获取 TPV 特征。

3.Method

3.1Point Querying formulation

第三个是作者提出的三视图方法（俯视图、侧视图和前视图）

给定现实世界中的 (x, y, z) 处的查询点，TPV 表示试图在顶部、侧面和正面视图上聚合其投影，以便对点进行全面描述。首先将点投影到 TPV 平面上以获得坐标 [(h, w)、(d, h)、(w, d)]，在这些位置对 TPV 平面进行采样以检索相应的特征 [th,w, td,h, tw,d]，并聚合三个特征。

其中采样函数S和聚合函数A分别用双线性插值和求和实现，每个投影函数P在两个相关坐标上执行简单的缩放，因为TPV平面与现实世界的轴对齐。

TPV的计算复杂度：O(HW + DH + W D) 正常OCC的计算复杂度：O（H×W×D）

3.2TPVFormer

采用图像骨干网为多相机图像提取多尺度特征。然后执行交叉注意，自适应地将 2D 特征提升到 TPV 空间，并使用跨视图混合注意力来实现 TPV 平面之间的交互。为了预测三维空间中一个点的语义占用率，我们在三个TPV平面上对投影特征之和应用一个轻量级的预测头

3.2.1 TPV Queries（Query initial）

文中作者说初始化Query为可学习参数的时候参考了原文公式3的size，

每个 TPV 查询映射到相应视图中大小为 s × s m2 的 2D 网格单元区域，并进一步映射到从垂直方向视图延伸的 3D 柱区域。

然后在HCAB中进行AUG、在HAB中进行上下文线索细化。

Attention 这里的话前面三块是Cross-Atn，负责和图片两者的交互，后面的两块是Hybird-Atn，负责三个视角间的交互。

3.2.2 Image Cross-Attention

首先要拿采样点

这个图论文没找到，就从作者讲这篇论文的视频那扒拉下来哈哈

（1）首先将点通过C2W映射回世界坐标系当中

（2）然后就像sur或者bevformer一样进行点的采样，看图的话是跟sur一样去采四个点

（3）采集完后将点通过W2C映射回图像上并筛选出外面的点，只保留相机镜头的店。

（4）然后每个采样点进行采样，并进行deformable-atn操作

3.2.3Cross-View Hybrid-Attention

这里以俯视图为例子，将其参考点分组到三个不相交的子集中，子集分别包含属于顶部、侧面和前平面的参考点

就例如找了zyz中俯视图的（3，4）这个点，前视和侧视的（3，z）这一条和和（4，z）都作为采样点。

然后拿这些采样点进行deformable-atn操作。

3.3Applications of TPV

现在获取的三组query都是正交的形式，需要将feature给映射到voxel中

将点投影到 TPV 平面上以检索相应的特征 [th,w, td,h, tw,d]，并将它们相加以获得逐点特征，沿着相应的正交方向主动广播每个 TPV 平面，以产生三个相同大小的 H × W × D × C 的特征张量，并通过求和聚合它们以获得全尺寸体素特征。

将其映射到occ-voxel中，然后用分割头给他输出语义预测。

4.Experiments

3D 语义占用预测和 nuScenes LiDAR 分割的可视化结果。我们的方法可以生成比 LiDAR 分割地面实况更全面的预测结果。

测试时的任意分辨率。我们可以通过测试时插值来调整预测分辨率。随着分辨率的增加，捕获了有关 3D 对象的更多详细信息。

SemanticKITTI 测试集上的语义场景完成结果。为了公平比较，我们使用MonoScene中报告的前四种方法的RGB推断版本的性能。我们在 IoU 和 mIoU 中都显着优于其他方法，包括基于 3D 卷积的 MonoScene。

尺寸越大，精度越高

两个块的数量消融，感觉差的不大

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论小白读TPVFormer（粗读版）

作者|Turner 编辑| 自动驾驶Daily原文链接：https://zhuanlan.zhihu.com/p/711913150点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『轨迹预测』技术交流群本文只做学术分享，如有侵权，联系删文1.来源CVPR 2023 清华大学2.Abstractbev效率快，但是缺...
复制链接

扫一扫