《Ultra Fast Structure-aware Deep Lane Detection》论文部分翻译

最新推荐文章于 2022-08-28 19:20:12 发布

cxhmike

最新推荐文章于 2022-08-28 19:20:12 发布

阅读量1.6k

点赞数 2

分类专栏：论文阅读

原文链接：https://arxiv.org/pdf/2004.11757.pdf

版权

论文阅读专栏收录该内容

2 篇文章

订阅专栏

原文链接

摘要

现在的车道线检测方法主要是语义分割，但在具有挑战性的场景和车速时效果不好。在被严重遮挡和极端光照条件下，车道线检测主要基于语义和全局信息。本论文利用全局特征，将车道线检测转化为基于行的选择问题。我们也提出了一个针对车道线结构的损失函数。在处理相同分辨率的图像时，轻量级的模型可以达到300+的帧率，比以往先进的车道线检测方法快了4倍。

1 引言

车道线检测的3个关键问题

（1）速度要快

目前的自动驾驶车辆通常配置多个摄像头，计算量很大，快速的检测流程对实时性至关重要。为此，研究者们提出了SAD算法，它采用自蒸馏方法，但由于预测结果密集，需要花费大量的计算资源。

（2）车道线遮挡问题

此时需要对车道线进行更高层次的语意分析。深度分割方法比传统方法有更强的语意分析能力，SCNN采用相邻像素之间的消息传递机制处理此类问题，大大提升了深度分割的效果。但由于要对大量的像素进行处理，该方法需要花费更大的计算资源。

（3）将车道线表示为分段的二元特征，而不是直线或者曲线。

尽管深度分割方法在车道检测领域占主导地位，但这种表示形式使这些方法难以明确利用先验信息，如车道的刚度和平整度。

本方法的4个优点

（1）减少计算量，速度更快

本方法是选择车道线的位置，其他方法是对每个维度的每个像素进行处理。
在这里插入图片描述
图2 行锚框就是提前定义的行的位置，我们规定在行锚框上按水平方向进行位置的选取。

（2）解决了遮挡问题

本方法利用全局特征来预测车道线，是整张图片的感受野。其他方法是局部感受野。

（3）损失函数利用了车道线先验信息。

（4）同时兼顾速度和精度

在CULane数据集上，轻量级的模型达到300FPS，速度是以往最好的方法的4倍。

2 相关工作

传统方法

深度学习方法

基于语义分割，VPGNet, SCNN, Self-attention distillation(SAD), long short-term memory(LSTM)网络，Fast-Draw。

3 方法

3.1 模型推导

在这里插入图片描述
**基于全局图像特征的基于行的选择方法。**即利用全局特征，在每个预先定义的行上，选择车道线正确的位置，将车道线表示为预定义行上的一系列水平位置，即行锚框。为了表示位置，第一步是将图像分成网格。在每一个行锚框上，位置被分为许多小方格。这样，车道线检测问题就转化为在预定义的行锚框上选择特定的小方格问题。如图3
在这里插入图片描述
图3 可以理解为一张图像上有C条车道线，就把这张图像复制C份，按照前后顺序把C张图片排好，每张图片只包含一条车道线。然后将每张图片分为h行，每行分为w个小方格。

车道线的预测公式如下：
在这里插入图片描述
$X是整张图像的特征，f^{ij}是分类器，用来选择第i条车道线在第j个行锚框里的车道线位置$
Pi,j,:是w+1维的容器，表示为第i条车道线上第j个行锚框选择的grid cell的概率。假设Ti,j,:是正确位置的one-hot编码，优化函数为：
在这里插入图片描述
Lcls是交叉熵损失，由于用另外的一维表示车道线缺失，因此方程式对应的是w+1维的。
（1）式基于全局特征，预测了每个行锚框里的所有概率分布。那么。可以基于概率分布选择正确的位置。
模型是如何适应高速场景的参考图3，h<<H,w<<W,分割方法需要执行C+1维度的HW个分类，本模型只需要执行w+1维度的Ch个分类。
模型是如何解决遮挡问题的例如，一条车道线被一辆小汽车遮挡，但是我们可以根据其他车道线、道路形状、车辆方向，来确定被遮挡的车道线位置。
我们模型是对整张图片的感受野进行透视，模型在学习透视图时，利用结构损失，同时可以学习车道线形状、方向等先验信息。

3.2 车道线结构损失

除了分类损失，我们还提车了与车道线点有关的两个损失函数。
第一个损失函数源自这样一个事实：车道线是连续的，也就是说在相邻的行锚框里，车道线上的点应该是彼此靠近的。我们用一个分类矢量来表示车道线的位置。通过限制分类矢量在相邻行锚上的分布来实现连续性。相似性损失函数如下：
在这里插入图片描述
另一个损失函数关注车道线形状。大部分的车道线是直线的，即使弯道由于透视原因，弯道的大部分仍然是直线的。我们用第二个方程来限制车道线形状，当是直线时方程等0.
为了得到形状，每个行锚上的车道线位置都需要计算。直观的方法时从分类预测中找到最大响应峰。对任意第i个车道线第j个行锚，车道线位置可以表示为：
在这里插入图片描述
k是整数，代表位置的下标。我们不计算背景的grid cell，位置下标[1,w]，不是[1,w+1].
然而，argmax函数不可微，不能再使用其他约束。另外，在分类公式中，类别没有明显的顺序，并且很闹在不同的行锚间建立关系。因此，我们用预测的期望作为估算的位置。
在这里插入图片描述
Probi,j:代表每个位置的存在车道线的概率。位置的期望表示为：

这样做的好处有2个：一是期望函数可微，二是使用离散随机变量恢复连续位置。
二阶差异约束：

用二阶差异代替一介差异是因为大多数情况下一介差异不为0，网络就需要额外的参数来学习车道线位置的一介差异的分布。总体的结构性损失表示为：
在这里插入图片描述
入是损失系数。

3.3 特征回归

在本部分，我们提出了在全局环境和局部特征上的辅助特征回归，提出运用多尺度特征的辅助分割任务，用交叉熵来作为辅助分割损失。因此总体的损失函数：
在这里插入图片描述
总体结构见图4：

图四上半部分是辅助分割分支，只有在训练的时候被激活。蓝色盒子代表特征提取，绿色盒子代表基于分类的预测，橘黄色盒子代表辅助分割任务。group classification在每个行锚上都会执行。

4 实验

4.1 实验设置

数据集 TuSimple数据集实在稳定光照的高速公路上采集的，CULane数据集包含9个不同的市区场景，正常、拥挤、弯道、光源直射、夜晚、没有车道线、阴影和箭头。
在这里插入图片描述
评价指标 两个数据集的官方评价指标不同。TuSimple数据集主要指标是准确度：

Cclip是预测正确的车道线点，Sclip是每一帧图像中groud truth总数。
CULane数据集里，每条车道线宽度固定为30个像素。然后比较预测和groud tuth的交并比。IoUs > 0.5就认为是真正。然后将F1指标作为评价指标：
在这里插入图片描述

执行细节 TuSimple数据集里的图像高度720，从160到710，每10个像素一个行锚，每个行锚分为100个grid cells。CULane数据集图像高度540,每个行锚分为150个grid cells。
在优化过程中，图像被resize为188x800尺寸。余弦衰减学习率策略初始化为4e-4(4*10^-4),用Adam优化器来优化模型。（9）中的损失系数都初始化为1.batch size=32,TuSimple epochs=100,CULane epochs=50,pytorch框架，nvidia GTX 1080Ti GPU.
数据增广 因为车道线的固有结构，基于分类的网络很容易过拟合。数据增广使用了旋转、竖直和水平方向上的变换。

4.2 消融实验

（消融实验：实际上ablation study就是为了研究模型中所提出的一些结构是否有效而设计的实验。比如你提出了某某结构，但是要想确定这个结构是否有利于最终的效果，那就要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比，这就是ablation study）
gridding cells数量的影响
在这里插入图片描述
图6 评价准确度表示在TuSimple数据集上运用的评价指标，分类准确度是标准准确度。Top1,top2,top3 accuracy分别代表预测和真实值的距离小于1，2，3是的评价指标。top1 accuracy对标标准分类准确度。