MatrixVT：Efficient Multi-Camera to BEV Transformation for 3D Perception——论文笔记

最新推荐文章于 2025-03-17 16:54:34 发布

m_buddy

最新推荐文章于 2025-03-17 16:54:34 发布

阅读量1.2k

点赞数 1

分类专栏： BEV Perception 文章标签： 3d 论文阅读人工智能

本文链接：https://blog.csdn.net/m_buddy/article/details/128695426

版权

MatrixVT是针对LSS方法的优化，通过矩阵变换实现从多摄像头视角到BEV的高效转换。文章提出了Prime Extraction Module压缩H维度特征，减少计算资源，使用ring和ray矩阵编码几何信息，降低学习复杂度。实验表明，MatrixVT在速度和内存消耗上有显著优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考代码：BEVDepth

1. 概述

介绍：这篇文章对LSS方法中的瓶颈项进行分析，分别指出其中显存占用问题源自于“lift”操作生成的高维度特征，运行耗时是由于“splat”操作的求和操作，对此文章从矩阵变换的角度对原版的LSS方法进行改进，得到高效BEV特征生成方法MatrixVT。从FOV到BEV的变换是可被描述为一个矩阵变换的，但是直接去学习这样的矩阵变换是很难的，对此文中将以相机为原点的BEV特征进行正交分解得到：与相机的距离矩阵（对应文中的ring matrix）和与相机视线方向矩阵（对应文中的ray matrix），从而通过引入先验几何编码降低了整体学习的难度。此外，对图像深度信息在特征图 $W H$ 两个维度的丰富程度进行分析，得出 $W$ 这个维度包含的信息更多，则对应提出Prime Extraction Module消除 $H$ 维度的特征，这样便可进一步降低计算量。文中给出文章的方法相比之前的LSS能快2～8倍，显存消耗减小97%。

对于原本的LSS方法其流程可概括为下图所示：
在这里插入图片描述
上图中“lift”和“splat”操作都是相当消耗资源的，对此首先是对图像特征在 $H$ 维度进行压缩，之后通过ring matrix和ray matrix实现几何信息编码，同时通过计算等效转换还可进一步减少计算资源消耗，其结构见下图所示：
在这里插入图片描述
将这篇文章提到的方法与其它方法在耗时与显存消耗上的比较与分析：

2. 方法设计

2.1 方法pipeline

文章提出的BEV特征生成pipeline见下图所示：
在这里插入图片描述
结合上图可将生成BEV特征的的流程划分为：

1）图像特征在 $H$ 维度聚合（prime extraction module），源自与 $W$ 维度比 $H$ 维度有更丰富的特征表达，因此可将特征在 $H$ 维度上聚合从而消减掉一个维度，从而减少计算开销。
2） $H$ 维度聚合之后图像上下文特征和深度特征（可有监督或是无监督）通过外积的形式组合起来，之后用矩阵变换的形式实现FOV到BEV的转换，这里转换矩阵显著使用了空间几何信息（构建了与距离和方向相关联的ring matrix和ray matrix）。