[论文笔记]端到端视觉定位 DA4AD: End-to-End Deep Attention-based Visual Localization for Autonomous Driving 2020

本文链接：https://blog.csdn.net/phy12321/article/details/120297996

百度自动驾驶部门
代码未开源

注意力机制在视觉重定位任务中的应用，端到端网络，可用于明显外观变化的场景，cm级精度，优于基于激光雷达的定位方法。

本文使用CNN以及注意力机制训练描述子与关键点，与数据库图像做匹配然后解算相机位姿。

构建特征金字塔，使用全卷积网络独立提取密集特征。
构建定位地图： attentive keypoints + features + 3D coordinates, 3D 坐标来自于激光雷达
根据先验位姿找到附近的三维点，在先验位姿附近多次采样，根据这些位姿将三维点投影到当前图像中进行匹配。
计算所有候选位姿的匹配对的matching cost，得到最佳位姿预测。该步骤可导，因此可以设计成端到端的结构。可以通过反向传播同时优化 feature representation 以及 attention score estimation function，达到最小的位姿损失。此外，基于注意力的特征提取绕过了传统关键点检测必须要解决的重复性难题

此外，本文即将发布一个定位数据集，有轨迹真值，时间戳同步。

论文介绍：

分为三部分：网络训练，地图生成，在线定位

在这里插入图片描述

网络介绍：

主要有三种不同的模块：

local feature embedding (LFE)

提取稠密的描述子，以及对应的注意力得分，描述子应当对外观变化和亮度变化鲁棒，注意力得分应当避开干扰和噪声。
attentive keypoint selection (AKS)：

从得到的特征中选择部分显著的关键点，保存在地图中
weighted feature matching (WFM)：

在先验位姿附近采样候选位姿，进行匹配，评估matching cost。

定位pipeline:

Training:

根据先验位姿检索地图中的近邻图像，LFE提取查询图像和地图图像的稠密特征，以及attention heatmap。
AKS根据注意力得分，从地图图像中选择好的特征作为关键点，然后从lidar中获得对应关键点的3D坐标。这样得到了关键点，描述子，3D坐标。
WFM根据关键点、描述子、3D坐标从3D cost volume 中找到最佳的位姿偏移量，然后和位姿真值计算得到training loss.

Map Generation:

根据位姿真值和lidar，可以获得3D坐标，然后和地图图像的像素关联起来。
用训练好的LFE在地图图像上提特征和注意力热图，以及金字塔的AKS来选择关键点。
最终定位地图中保存了3D坐标、D维的描述子以及关键点。

Online Localization：

用LFE对查询图像在多尺度分辨率上进行特征提取
在地图中找到最近邻图像的关键点、描述子、3D坐标
根据在位姿先验附近采样的位姿，将地图图像的特征点投影到查询图像中。
三种不同分辨率下的特征匹配网络将由粗到细的优化并输出最终的车辆位姿。

接下来是三个模块的介绍：

在这里插入图片描述

Local Feature Embedding

类似于特征金字塔的网络结构+ skip connections保证底层的特征传递 + residual blocks，图中卷积层的参数为（channel, kernal, stride）

decoder使用了上采样 + skip connections(二者element-wise average)恢复分辨率, 输出为不同分辨率下的特征图。

然后输入到descriptors head以及 heatmap head中，得到D维的描述子向量和heatmap, heatmap中的元素是[0,1]之间的标量，用于选择关键点以及特征匹配。D= 8，这里的描述子和heatmap也是多分辨率的形式。

Attentive Keypoint Selection

不同的关键点选择策略对性能有不小的影响，因此使用AKS来做

AKS中使用最远点采样（FPS）或者是加权最远点采样（WFPS），权值来自于heatmap

在training阶段，随机选择K个候选点送入GPU，然后用FPS从中选择关键点。

在map generation 阶段，随机选择K个候选点送入GPU，然后用WFPS从中选择关键点。因为此时已经有了训练好的网络来输出heatmap

将lidar点投影到2D图像上不能保证每一个像素都有点，因此仅选择有3D点的2D点作为选择关键点的候选点集。

Weighted Feature Matching

传统的方法使用PnP + ransac的方法从2D-3D匹配中解算相机位姿，但是RANSAC不可导。

《L3-Net: Towards learning based Li-DAR localization for autonomous driving》中提出了一种根据pose offset以及两幅图像的匹配对以及描述子，利用differentiable 3D cost volume来评估匹配损失的方法。

本文基于L3-Net的做法，将注意力权重加入到其中。

与L3-Net类似，首先构建cost volume：Ns ×nx ×ny ×nψ ,其中Ns是3D关键点的数目，后面三个是需要预测的位姿空间。即以预测的pose为中心，将其附近的位姿空间分割成均匀的三维网格（分别对应pose offset的三个维度），这个网格中的节点相当于采样得到的候选位姿。根据这些候选位姿将选择的地图图像中的3D点投影到查询图像中，然后计算描述子的距离，得到一个cost标量。最后得到descriptor cost map, 用3D卷积处理得到结果 $\Delta T)$ ，其中p代表单个3D关键点， $\Delta T$ 表示一个位姿假设。

在L3Net中，作者通过在Ns的维度的reduce average operation 将 Ns ×nx ×ny ×nψ的 matching cost volume边缘化成了nx ×ny ×nψ。这里作者希望可以使用heatmap中的 attention weights进行边缘化，因此在模型训练阶段使用weighted average operation代替了原来的平均操作（因为训练阶段AKS模块中使用的是FPS），而在线定位时用reduce average operation.

接下来估计位姿的offset，这部分与L3-Net完全相同。

损失函数：

Absolute Loss: 用于约束位姿offset量的预测

$\operatorname{Loss}_{1}=\alpha \cdot\left(\left|\Delta \hat{x}-\Delta x^{*}\right|+\left|\Delta \hat{y}-\Delta y^{*}\right|+\left|\Delta \hat{\psi}-\Delta \psi^{*}\right|\right)$
Concentration Loss：对经常出现的位姿偏移量进行加权
$Loss_2=\beta \cdot\left(\sigma_{x}+\sigma_{y}+\sigma_{\psi}\right)\\ 其中\sigma_{z}=\sum_{i} P\left(\Delta z_{i}\right) \cdot\left|\Delta z_{i}-\Delta z^{*}\right|， z\in\{x,y,\psi\}, P(\Delta z_i)表示概率分布的集中度，$
相当于对经常出现的offset 量进行了加权。
Similarity Loss：对2D–3D匹配对的描述子的距离进行惩罚
$\operatorname{Loss}_{3}=\sum_{p} \max (\hat{P}(p)-C, 0)\\ 这里\hat P(p)代表的是3D关键点p经过真值位姿变换后与查询图像的的matching \ cost， C= 1.0$