P-MapNet:Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

主页:homepage
参考代码:P-MapNet

动机与出发点
在感知系统中引入先验信息是可以提升静态元素感知网络的上限的,这篇文章对SD地图采用栅格化表示(也就是图像形式),之后用CNN网络去抽取栅格化SD地图的信息,将其作为BEV特征优化时额外信息的来源(也就是做key和val)。其实还有一种SD地图表示的方法,那就是向量化描述,目前现有的文献还没有对这两种模态表示更好做过细致分析。感知的终极目的时在线构建高精地图,而感知+地图的结果只能说是在鲁棒性、稳定性上好于纯视觉的方案,对此这篇文章设计了一个refine网络,这个网络通过自监督学习(也即是MAE自编码)的方式学习栅格化的HDMap,这样使得网络参数中隐式编码了HDMap的信息。再用这个自监督得到的网络用视觉+SDMap的结果作为输入去fine-tune得到最后结果。虽然这个隐式编码能够带来一定性能提升,但是没有将静态元素信息很好挖掘。

整体pipeline
文章的方法可以看作是两阶段优化,第一阶段视觉+SDMap得到初步感知结果,第二阶段通过在HDMap预训练过的网络上finetune,整体结构见下图:
在这里插入图片描述

静态元素感知
1)视觉+SDMap的视觉感知
对于这一部分感知任务它首先会使用CNN网络将栅格化之后的SDMap进行编码,之后送到transformer-layer中去做cross-attn,也就是下图中的前半部分。
在这里插入图片描述
BEV特征(上图中展示的BEV特征应该是经过PV2BEV之后的,因为并未看到与图像特征做交互)通过cross-attn之后相当于就是引入到道路先验,之后再经过预测网络得到初步感知结果。

2)初始感知结果上finetune
这里优化的过程可以划分为两个步骤:

Step1:预训练
使用栅格化之后的HDMap做MAE自编码预训练,这样使得网络参数中隐式学习到了静态元素的信息。这里MAE中mask的设置文中给出了两种方式:random mask和grid-based mask,第一种是在图上按照 20 ∗ 20 20*20 2020像素为格子大小间隔做mask,第二种是从多种( 20 ∗ 20 , 20 ∗ 40 , 25 ∗ 50 , 40 ∗ 80 20*20,20*40,25*50,40*80 2020204025504080)格子大小选择一个尺寸然后按照50%的概率进行随机mask。
在这里插入图片描述
上面的两种mask方式进行比较,有如下结果
在这里插入图片描述

Step2:初始结果上的finetune
在Step1中通过预训练的方式得到网络初始参数,那么以感知初始结果作为输入使用预训练参数进行finetune,就可以依据HDMap中的先验信息去进一步优化感知的结果。下面列举了不同感知距离下,初始感知结果和finetune之后结果的性能比较:
在这里插入图片描述

实验结果
nuscenes val上的结果比较:
在这里插入图片描述

远距离下的性能比较:
在这里插入图片描述

  • 25
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值