HDMapNet: An Online HD Map Construction and Evaluation Framework

Paper name
HDMapNet: An Online HD Map Construction and Evaluation Framework

Paper Reading Note

URL: https://arxiv.org/pdf/2107.06307.pdf

TL;DR

  • HDMapNet 编码环视相机 and/or 雷达点云,预测 BEV 视角下的向量化地图元素,所提出的方法不是用来替代传统的全局高精地图,而是提供一个预测局部语义地图的简单方案,用于实时的运动预测和规划

Introduction

  • 高精地图在自动驾驶领域有广泛应用,但是传统的高精地图构建需要大量的人工参与标注,本文提出一种根据端上 sensor 采集数据自耦东构建局部地图的方法 HDMapNet
    • 传统构建高精地图一般是先基于激光雷达采集点云信息,然后基于 SLAM 构建全局一致的地图,利用人工标注地图中的语义信息
    • 所提出的方法不是用来替代传统的全局高精地图,而是提供一个预测局部语义地图的简单方案,用于实时的运动预测和规划
  • HDMapNet 编码环视相机 and/or 雷达点云,预测 BEV 视角下的向量化地图元素
  • 提出了一种 sematic-level 和 instance-level metric 用于评估地图学习的性能

在这里插入图片描述


Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

  • 模型输入为单帧rgb图片、雷达点云,输出为预测的向量化地图元素(车道分隔线,车道边界,人行横道),模型分为四个主要模块
    • Perspective view image encoder:对于环视图片逐个提取图像特征
    • Neural view transformer:将图片特征转换到相机坐标系下,然后组转换到 BEV 视角,其中转换 perspective view 到 camera coodinate 下的方式使用过一个全连接层实现
      在这里插入图片描述
      然后通过相机外参将相机坐标系下特征转换到 BEV 视角(车辆坐标系)下的特征;最终的图像特征是将所有环视图像的 BEV 视角特征加起来
    • Point cloud encoder:使用了增加 dynamic voxelization 的PointPillar 的变种,将 3d space 分割为多个柱状空间,然后对柱状空间的点云提取 pillar-wise 特征,对于每个点的输出为 K+3(特征维度K + 三维位置信息3);将提取的特征投影到 BEV 视角下,因为多个点可能会被投影到同一个圆柱空间中,所以这里使用了 PointNet 聚合点特征到圆柱特征;最后通过一个卷积网络提取特征
      在这里插入图片描述
    • Bird’s-eye view decoder:输入是 BEV 下的图像 and/or BEV 下的点云特征(concat),bev decoder 输出车道线的语义分割,同时还会预测 instance embedding 和 semantic segmentation,分别是由三个 FCN 分支得到
  • decoder 训练
    • Semantic prediction:语义分割基于 cross-entropy loss
    • Instance embedding:将 BEV 下的 embedding 进行聚类,主要是在距离和方差层面计算聚类的损失,提升类内紧凑性和类间区分度,其中 C 是真值中的聚类数,Nc 是 c 类别中的元素数量,uc 是 c 类别的 mean embedding, δ \delta δ 是定义的 margin
      在这里插入图片描述
    • Direction prediction:预测每个车道线中每个像素的朝向,朝向转换为一个圆形空间中离散后的方向表示,正向和反向的方向在训练中设置为1,其他的方向设置为0。
  • 测试阶段
    • Vectorization:首先预测 BEV 下的车道线语义分割,然后基于Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 进行 instance embedding 聚类,然后经过 nms 去除冗余预测,最后通过预测的车道线的像素朝向将车道线表示成向量

实验结果

评估设置
  • semantic metrics
    • Eulerian metrics:基于 IOU 进行密集评测像素层面的评测
      在这里插入图片描述
    • Lagrangian metrics:基于 chamfer 距离评估车道线边缘上的采样点,从而评估 shape 的差异
      在这里插入图片描述
  • Instance metrics:基于 Chamfer distance 的预设定阈值,低于该阈值的判断为一个正确的 instance,否者是 fp
    在这里插入图片描述
nuscenes 数据集实验
  • 可视化对比,IPM 是在perspective 图像上预测然后将地图分割结果转换到 BEV 下, IPM(B) 是直接在 BEV 下进行分割预测,IPM(CB) 是perspective图像上提取特征然后在 BEV 下进行分割预测,Lift-Splat-Shoot 是基于深度估计的结果将2d图像映射到3d点云(最后映射到车辆坐标系),VPN 是一种以及 view transformeation module 的方法;- HDMapNet(Surr), HDMapNet(LiDAR), HDMapNet(Fusion) 是本文的方法,分别代表仅使用环视图片输入、仅使用雷达点云输入、同时使用环视图片和雷达点云输入

在这里插入图片描述

  • 定量对比实验,可以看出 fusion(同时使用图像和激光雷达)有最佳结果(超过 baseline或者仅使用 camera 数据 50% 左右),另外不同模态数据可能有各自擅长的任务
    在这里插入图片描述
  • temporal fusion:基于 ego poses 拼接时序上的特征,经过 maxpooling 后送入 decoder,时序 fusion 能够提升 iou
    在这里插入图片描述

Thoughts

  • 提供的局部地图构建方法虽然大部分模块都是复用之前工作,但系统性很强,训练评测都提出了针对性的优化
  • 多模态融合的精度提升非常明显
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值