[论文笔记]端到端视觉定位 DA4AD: End-to-End Deep Attention-based Visual Localization for Autonomous Driving 2020

百度自动驾驶部门
代码未开源

注意力机制在视觉重定位任务中的应用,端到端网络,可用于明显外观变化的场景,cm级精度,优于基于激光雷达的定位方法。

本文使用CNN以及注意力机制训练描述子与关键点,与数据库图像做匹配然后解算相机位姿。

  1. 构建特征金字塔,使用全卷积网络 独立 提取密集特征。
  2. 构建定位地图: attentive keypoints + features + 3D coordinates, 3D 坐标来自于激光雷达
  3. 根据先验位姿找到附近的三维点,在先验位姿附近多次采样,根据这些位姿将三维点投影到当前图像中进行匹配。
  4. 计算所有候选位姿的匹配对的matching cost,得到最佳位姿预测。该步骤可导,因此可以设计成端到端的结构。可以通过反向传播同时优化 feature representation 以及 attention score estimation function,达到最小的位姿损失。此外,基于注意力的特征提取绕过了传统关键点检测必须要解决的重复性难题

此外,本文即将发布一个定位数据集,有轨迹真值,时间戳同步。

相关工作:

基于激光雷达的定位方法:

Structure based: 用地标、线段、路标等与定位地图进行匹配。(2016年之前)

Low-level Feature based: 基于显著性的特征点匹配等,以及D2Net(也是用注意力机制训练了描述子和关键点),但是没有用端到端架构针对特定任务做优化。

其他还有DeLS-3D等。

本文假设有一个先验位姿,来自于LIO或者是GPS或者WIFI系统,因此任务变为根据位姿先验预测一个3 Dof的offset ( Δ x , Δ y , Δ ψ ) (\Delta x, \Delta y, \Delta \psi) (Δx,Δy,Δψ)

论文介绍:

分为三部分:网络训练,地图生成,在线定位

在这里插入图片描述

网络介绍:

主要有三种不同的模块:

  • local feature embedding (LFE)

    提取稠密的描述子,以及对应的注意力得分,描述子应当对外观变化和亮度变化鲁棒,注意力得分应当避开干扰和噪声。

  • attentive keypoint selection (AKS):

    从得到的特征中选择部分显著的关键点,保存在地图中

  • weighted feature matching (WFM):

    在先验位姿附近采样候选位姿,进行匹配,评估matching cost。

定位pipeline:

Training:
  1. 根据先验位姿检索地图中的近邻图像,LFE提取查询图像和地图图像的稠密特征,以及attention heatmap。
  2. AKS根据注意力得分,从地图图像中选择好的特征作为关键点,然后从lidar中获得对应关键点的3D坐标。这样得到了关键点,描述子,3D坐标。
  3. WFM根据关键点、描述子、3D坐标从3D cost volume 中找到最佳的位姿偏移量,然后和位姿真值计算得到training loss.
Map Generation:
  1. 根据位姿真值和lidar,可以获得3D坐标,然后和地图图像的像素关联起来。
  2. 训练好的LFE在地图图像上提特征和注意力热图,以及金字塔的AKS来选择关键点。
  3. 最终定位地图中保存了3D坐标、D维的描述子以及关键点。
Online Localization:
  1. 用LFE对查询图像在多尺度分辨率上进行特征提取
  2. 在地图中找到最近邻图像的关键点、描述子、3D坐标
  3. 根据在位姿先验附近采样的位姿,将地图图像的特征点投影到查询图像中。
  4. 三种不同分辨率下的特征匹配网络将由粗到细的优化并输出最终的车辆位姿。

接下来是三个模块的介绍:

在这里插入图片描述

Local Feature Embedding

类似于特征金字塔的网络结构+ skip connections保证底层的特征传递 + residual blocks,图中卷积层的参数为(channel, kernal, stride)

decoder使用了上采样 + skip connections(二者element-wise average)恢复分辨率, 输出为不同分辨率下的特征图。

然后输入到descriptors head以及 heatmap head中,得到D维的描述子向量和heatmap, heatmap中的元素是[0,1]之间的标量, 用于选择关键点以及特征匹配。D= 8,这里的描述子和heatmap也是多分辨率的形式。

Attentive Keypoint Selection

不同的关键点选择策略对性能有不小的影响, 因此使用AKS来做

AKS中使用最远点采样(FPS)或者是加权最远点采样(WFPS),权值来自于heatmap

在training阶段,随机选择K个候选点送入GPU,然后用FPS从中选择关键点。

在map generation 阶段,随机选择K个候选点送入GPU,然后用WFPS从中选择关键点。因为此时已经有了训练好的网络来输出heatmap

将lidar点投影到2D图像上不能保证每一个像素都有点,因此仅选择有3D点的2D点作为选择关键点的候选点集。

Weighted Feature Matching

传统的方法使用PnP + ransac的方法从2D-3D匹配中解算相机位姿,但是RANSAC不可导。

《L3-Net: Towards learning based Li-DAR localization for autonomous driving》中提出了一种根据pose offset以及两幅图像的匹配对以及描述子,利用differentiable 3D cost volume来评估匹配损失的方法。

本文基于L3-Net的做法, 将注意力权重加入到其中。

与L3-Net类似, 首先构建cost volume:Ns ×nx ×ny ×nψ ,其中Ns是3D关键点的数目,后面三个是需要预测的位姿空间。即以预测的pose为中心,将其附近的位姿空间分割成均匀的三维网格(分别对应pose offset的三个维度),这个网格中的节点相当于采样得到的候选位姿。根据这些候选位姿将选择的地图图像中的3D点投影到查询图像中,然后计算描述子的距离,得到一个cost标量。最后得到descriptor cost map, 用3D卷积处理得到结果 P ( p , Δ T ) P(p, \Delta T) P(p,ΔT),其中p代表单个3D关键点, Δ T \Delta T ΔT表示一个位姿假设。

在L3Net中,作者通过在Ns的维度的reduce average operation 将 Ns ×nx ×ny ×nψ的 matching cost volume边缘化成了nx ×ny ×nψ。这里作者希望可以使用heatmap中的 attention weights进行边缘化,因此在模型训练阶段使用weighted average operation代替了原来的平均操作(因为训练阶段AKS模块中使用的是FPS),而在线定位时用reduce average operation.

接下来估计位姿的offset,这部分与L3-Net完全相同。

损失函数:

  1. Absolute Loss: 用于约束位姿offset量的预测

    Loss ⁡ 1 = α ⋅ ( ∣ Δ x ^ − Δ x ∗ ∣ + ∣ Δ y ^ − Δ y ∗ ∣ + ∣ Δ ψ ^ − Δ ψ ∗ ∣ ) \operatorname{Loss}_{1}=\alpha \cdot\left(\left|\Delta \hat{x}-\Delta x^{*}\right|+\left|\Delta \hat{y}-\Delta y^{*}\right|+\left|\Delta \hat{\psi}-\Delta \psi^{*}\right|\right) Loss1=α(Δx^Δx+Δy^Δy+Δψ^Δψ)

  2. Concentration Loss: 对经常出现的位姿偏移量进行加权
    L o s s 2 = β ⋅ ( σ x + σ y + σ ψ ) 其 中 σ z = ∑ i P ( Δ z i ) ⋅ ∣ Δ z i − Δ z ∗ ∣ , z ∈ { x , y , ψ } , P ( Δ z i ) 表 示 概 率 分 布 的 集 中 度 , Loss_2=\beta \cdot\left(\sigma_{x}+\sigma_{y}+\sigma_{\psi}\right)\\ 其中\sigma_{z}=\sum_{i} P\left(\Delta z_{i}\right) \cdot\left|\Delta z_{i}-\Delta z^{*}\right|, z\in\{x,y,\psi\}, P(\Delta z_i)表示概率分布的集中度, Loss2=β(σx+σy+σψ)σz=iP(Δzi)ΔziΔzz{x,y,ψ},P(Δzi)
    相当于对经常出现的offset 量进行了加权。

  3. Similarity Loss:对2D–3D匹配对的描述子的距离进行惩罚
    Loss ⁡ 3 = ∑ p max ⁡ ( P ^ ( p ) − C , 0 ) 这 里 P ^ ( p ) 代 表 的 是 3 D 关 键 点 p 经 过 真 值 位 姿 变 换 后 与 查 询 图 像 的 的 m a t c h i n g   c o s t , C = 1.0 \operatorname{Loss}_{3}=\sum_{p} \max (\hat{P}(p)-C, 0)\\ 这里\hat P(p)代表的是3D关键点p经过真值位姿变换后与查询图像的的matching \ cost, C= 1.0 Loss3=pmax(P^(p)C,0)P^(p)3Dp姿matching costC=1.0

实验

需要RGB数据与激光数据对齐的、在同一场景中反复采集、且长期采集的数据集,然而现有的数据集均不能满足要求,因此论文还构建了数据集Apollo-DaoxiangLake,采集了9遍,时间长度为14周,覆盖了一天的不同时刻以及不同的天气状况。

实验中使用 GNSS/IMU获得先验位姿。

在这里插入图片描述

对比的方法包括Structure-based(地图中包含了线段、地标等几何结构的)方法以及feature-based(HF-net以及变种)方法。

这里为了公平起见,对HF-Net做了改造:

  1. HF-NET++: 将全局检索替换为直接根据先验位姿的检索,将6Dof的Pnp+RANSAC 替换为3Dof的PNP+ BA(单张图像和10张最近邻匹配,即single view,或者3张图像和30张最近邻图像匹配,即multi-view)
  2. HF-NET++SIFT:将特征点换成了SIFT的版本。

结果表明,本文提出的基于视觉的重定位方法的精度与激光雷达的定位方法相似。使用了三个相机试图的版本则达到了SOTA。

此外:HF-Net中使用了SIFT后性能明显下降。

单视图、3视图定位分别需要27ms以及50ms, 定位地图大小为10MB/Km.( GTX 1080 Ti GPU, Core i7-9700K CPU, and 16GB Memory.)
在这里插入图片描述

作者提到未来的工作将探索构建一个完整的基于视觉的定位系统,该系统可能包括基于车道和基于特征的方法,并需要里程计的帮助(这里应该是用里程计的先验代替GNSS/IMU)

最后,如果里程计也是端到端的,是不是就可以训出一个完全端到端的slam系统了?

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值