MGMap：Mask-Guided Learning for Online Vectorized HD Map Construction

最新推荐文章于 2024-07-25 17:23:08 发布

m_buddy

最新推荐文章于 2024-07-25 17:23:08 发布

阅读量1.1k

点赞数 7

分类专栏： BEV Perception # Lane Detection 文章标签：自动驾驶计算机视觉

本文链接：https://blog.csdn.net/m_buddy/article/details/137501041

版权

BEV Perception 同时被 2 个专栏收录

55 篇文章 36 订阅

订阅专栏

Lane Detection

29 篇文章 8 订阅

订阅专栏

本文探讨了如何通过结合栅格化描述改进向量化表示的性能，包括增加感受野、利用实例分割信息优化query构造和点回归细化。文章介绍了一种方法，如PV2BEV转换、多尺度特征融合和细化点处理，以及在Nuscenesval数据集上的实验结果。

摘要由CSDN通过智能技术生成

参考代码：MGMap

动机与出发点

地面元素的栅格化表示和向量化表示两者的优劣是分明的。栅格化描述更符合实际几何结构特征，但是缺少直接点输出特性；向量化描述直接输出元素点坐标，但是缺少对全局和局部细节的约束能力，导致“蚯蚓线”的情况。

之前的一些算法诸如MapVR、GeMap、HIMap、P-MapNet尝试从各种维度去解决向量化描述的缺点，但其实核心的一点便是在向量化描述下如何利用好栅格化描述的信息（栅格化描述在实际量产中是已被验证的），这样有了栅格化作为性能的baseline，再从向量化维度去提升性能上限。这篇文章结合栅格化描述从如下维度去提向量化描述的性能：

1）感受野：由于地面元素多是跨越大半BEV空间，需要有类似FPN这样的结构去增大感受野和融合不同尺度的特征
2）栅格化信息定义query与优化：使用实例分割的栅格化信息与BEV特征构造inst-query（做到区分实例和隐式编码栅格信息），再与可学习point-query构建hybrid-query，逐级迭代优化
3）points回归精细化处理：以迭代优化后的点作为锚点按照矩形宽度 $d$ 做RoiAlign截取特征，这个特征编码了语义分割的栅格化信息，从而做精细化单点优化

这篇文章在query构造阶段和point点refine阶段引入栅格化信息：

1）第一个阶段相当于每个inst对BEV特征做了cross-attn，attn-weight就是分割概率，以此来引入栅格化信息
2）第二个阶段将语义分割进行编码作为栅格化信息表达，以点对齐做RoIAlign实现点的精细化回归

引入栅格化信息之后跟baseline方法进行比较，见下图：
在这里插入图片描述

方法设计

这篇文章的整体pipeline见下图，主要划分为了PV2BEV、地面元素一阶段整体优化、地面元素点的二阶段细化三个过程
在这里插入图片描述

PV2BEV

这里使用bevformer去构建初始BEV特征，之后通过EML Neck（带channel-wise和spatial-wise的attention）去构建不同尺度的特征，用以满足不同目标感受野需求的不同。不同尺度的特征最后也会统一到一个尺度上去做融合（也就是enhanced BEV），后序inst-query初始化、point的位置细化都是基于这个特征做的。

PV和BEV处的多尺度与栅格化信息引入，对性能带来的影响：
在这里插入图片描述

地面元素一阶段整体优化

融合后的BEV特征会经过两个分支：得到语义分割和得到实例分割。语义分割分支经过编码叠加位置信息、融合后的BEV特征得到用于二阶段中点优化的特征 $F_m$ 。实例分割分支通过矩阵乘法与原本融合特征做融合（类似corss-attn）得到inst-query表达 $Q_{lane}$ 。整个过程见下图：
在这里插入图片描述

对于点的query是通过可学习的方式设置的 $Q_{points}$ ，它与 $Q_{lane}$ 通过broadcast融合方式得到hybrid-query，之后就是与多尺度BEV特征做attention操作了，去逐层优化。query的设置对性能的影响见下表：
在这里插入图片描述

地面元素点的二阶段细化

在逐层优化之后会输出query-embedding和query-coords，deformable-attn是通过offset学习的方式去确定需要抓取的信息，这是稀疏且粗糙的。那么可以在query-coord上依据点的位置为中心抓取边长为 $d$ 的矩形区域，这些稠密的信息通过RoIAlign得到 $5 * 5$ 的patch，这样就可以得到刨除无关信息的key和val。这个过程可以看作是增强版本的deformable-attn，但是更具有针对性
在这里插入图片描述

按照矩形区域截取的过程引入了超参数 $d$ ，这个参数的选择对性能带来的影响：
在这里插入图片描述

实验结果

nuscenes val上的性能比较：
在这里插入图片描述

m_buddy

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
MGMap：Mask-Guided Learning for Online Vectorized HD Map Construction

这里使用bevformer去构建初始BEV特征，之后通过EML Neck（带channel-wise和spatial-wise的attention）去构建不同尺度的特征，用以满足不同目标感受野需求的不同。在逐层优化之后会输出query-embedding和query-coords，deformable-attn是通过offset学习的方式去确定需要抓取的信息，这是稀疏且粗糙的。（栅格化描述在实际量产中是已被验证的），这样有了栅格化作为性能的baseline，再从向量化维度去提升性能上限。
复制链接

扫一扫

专栏目录