论文翻译3----LaneAF: Robust Multi-Lane Detectionwith Affinity Fields【LaneAF：具有亲和域的鲁棒多通道检测】

最新推荐文章于 2023-09-29 20:22:55 发布

迷你G

最新推荐文章于 2023-09-29 20:22:55 发布

阅读量615

点赞数

分类专栏：论文学习文章标签：聚类机器学习 python

原文链接：https://zhuanlan.zhihu.com/p/371604395

版权

论文学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

原文链接：[Paper Reading]LaneAF: Robust Multi-Lane Detection with Affinity Fields - 知乎

摘要：
本研究提出了一种车道检测方法，包括预测二值分割掩码和各像素亲和域。然后，在后处理步骤中，可以使用这些关联字段以及二进制掩码将车道像素水平和垂直聚类到相应的车道实例中。这种聚类是通过简单的行、列解码过程实现的，开销很小；这种方法允许LaneAF在不假设固定或最大车道数的情况下检测可变车道数。此外，与以前的视觉聚类方法相比，这种形式的聚类更易于解释，并且可以进行分析以识别和纠正错误源。在常用车道检测数据集上获得的定性和定量结果表明，该模型能够有效和稳健地检测和聚类车道。我们提出的方法在具有挑战性的CULane数据集和最近引入的无监督LLAMAS数据集上设置了新的最新状态。

索引项：目标检测、分割和分类、视觉感知深度学习

1 介绍：
车道检测是自动感知标记车道的形状和位置的过程，是自动驾驶系统的关键组成部分，直接影响车辆的引导和转向，同时也有助于道路上众多事物之间的交互。随着道路上驾驶员数量的增加，自动驾驶系统在汽车和技术行业以及学术界受到了极大的关注[1]。根据公路安全保险协会（IIHS）的数据，仅在美国，2018年就有36560人死于车祸，这突出了任何有助于防止车祸的技术的重要性。
由于道路通常具有不同类型的车道线（纯白、断白、纯黄等），每种车道线都对车辆如何与之交互具有特定的影响，因此自动车道检测系统还可以在道路上车道拓扑发生变化时帮助提醒驾驶员。此外，有几个因素使车道检测成为一项具有挑战性的任务。首先，世界各地使用的道路基础设施种类繁多。此外，车道检测系统必须能够识别车道结束、合并和拆分的情况。最后，车道检测系统必须具有识别磨损或不清晰车道标线的能力。车道的精确检测还能够对周围车辆进行更稳健的轨迹预测；如[2]所述，这对于自动驾驶中的成功路径规划至关重要。因此，尽管车道检测是一项重要而复杂的任务，但它是开发任何自动车辆系统的关键因素。
虽然在我们的方法中，二进制分类用于车道的检测，但这种分类的局限性在于它产生单通道输出，这不允许识别单独的车道实体。为了分离不同的车道实例，我们提出了一种基于亲和域的新聚类方案（见图1）。亲和域最初在[3]中引入，用于多人2D姿态估计，由编码位置和方向的单位向量组成。该技术还用于检测车辆内的手，如[4]所示。在本文中，我们定义了两种类型的亲和域，水平亲和域（HAF）和垂直亲和域（VAF）。正是这些关联字段使得能够识别和分割单个的车道实例。由于这些亲和域存在于存在前景车道像素的任何位置，因此它们不绑定到预定数量的车道。因此，该模型与道路上存在的车道数无关。

【图1：在我们的方法中，我们建议训练一个输出二进制分割掩码和亲和域的模型，然后将其一起解码以产生多个通道实例。这与（无锚）车道检测的标准方法相反，该方法将每个车道视为一个单独的类别，并训练一个模型来执行多类别分割】

本文的主要贡献如下：
1）我们表明，使用现成的卷积神经网络（CNN）主干[5]，本质上聚集和细化多尺度特征，与之前提出的用于车道检测的其他定制架构和损失相比，可以获得优异的性能。
2）我们提出了适合于聚类和关联属于无形实体（如车道）的像素的亲和域。
3）我们细化了训练模型的过程和损失，这些模型可预测二进制分割掩码和亲和域，用于车道线实例分割。
4）我们引入了有效的方法来生成和解码这些关联字段到未知数量的集群车道实例中。

2 相关研究：
车道检测传统上由基于特征的方法[6]解决，然后演变为基于模型的方法来检测车道边界。然而，这些场景在现实场景中并不实用，因为它们需要理想的道路场景才能有效工作。目前，数据驱动方法通常用于检测车道边界和车道区域。虽然近年来，传统车道检测方法（即通过手工特征进行车道分割）的一些缺点已经用更稳健的方法解决，但仍有改进的余地。最近，深度学习和大规模数据集为许多这些问题提供了解决方案。然而，在无约束环境和复杂场景中的车道检测仍然是一个挑战。
如今，车道检测通常被建模为语义分割问题，以使用深度学习方法提取特征。新方法将车道检测作为一个多类分割问题来处理，其中每个车道形成一个单独的类。其中一些方法包括[7]、[8]、[9]、[10]、[11]和[12]。在[9]中，作者将递归神经网络（RNN）与CNN结合用于车道预测和检测。[10]中引入了嵌入损失的使用，该方法使用生成对抗网络（GAN）更好地保留车道结构，并缓解语义分割输出的复杂后处理问题；在TuSimple数据集上获得了96%的准确率。在[12]中，序列预测网络用于避免基于启发式的聚类后处理。[13]中提出了另一种网络架构，包括两个元素：一个深度网络，除了可微分加权最小二乘拟合模块外，还生成加权像素坐标。在[14]中，作者引入了自注意蒸馏（SAD）损失，以避免模型顺序传播数据并减少推理时间。然而，SAD模型采用的全连接层在计算上很昂贵，无法适应任何数量的车道。
其他车道检测方法选择首先对所有车道进行二进制分割，然后进行聚类阶段，以分离每个单独的车道实例，如[15]、[16]和[17]所示。实例分割通常使用复杂的管道进行；然而，许多强大的方法和研究被用来提出更好的性能技术，包括[18]中提出的方法，其中他们使用端到端卷积神经网络来解决受经典分水岭变换启发的问题。另一种实例分割方法是基于使用完全卷积网络预测语义标签以及深度和基于实例的编码。这是通过使用每个像素朝向其对应实例中心的方向来实现的；借助低级计算机视觉技术，通过预测像素级深度、语义和实例级方向线索，实现了令人印象深刻的场景理解[19]。在[15]中，车道检测被提出为一个实例分割问题，因此可以以端到端的方式检测每个车道，以适应道路上车道数量的变化。在[16]中，实例分割和分类的组合被用作端到端深度学习实时方法，以避免依赖两步检测网络。尽管最近的车道检测方法在应用于流行的已发布数据集时显示出高精度，但这些当前方法的一些缺点是，它们在遇到遮挡时不鲁棒，并且它们需要场景中固定数量的车道；因此，它们不能在道路上存在的随机数目的车道上工作。在[17]中认识到这个问题，作者使用关键点估计方法来允许任意数量车道的车道检测，而不管方向如何。
最近，一些方法将车道检测建模为基于锚的对象检测问题，如[20]、[21]、[22]、[23]和[6]。在[23]中，提出了一种时空深度学习方法，以缓解在道路上遇到恶劣天气或其他复杂问题时可能出现的错误，从而危及场景中车道检测的准确性。同时，在[20]中，对车道标记进行了时间跟踪。此外，[22]提出了一种基于锚点的单阶段深车道检测模型，使用锚点进行特征池。在[21]中，作者开发了3D LaneNet，一种使用单个图像预测车道三维布局的网络。[24]中使用了激光雷达和摄像机传感器的组合作为其网络，以直接在三维空间中获得精确的车道检测

3 方法论
我们提出的方法涉及一个 feed-forward CNN，它被训练来预测二元车道分割掩码和每像素亲和域。更具体地说，该模型被训练来预测两个亲和场，我们分别称之为水平亲和场（HAF）和垂直亲和场（VAF）。亲和力场可以被认为是将图像平面上的任何2D位置映射到2D中的单位向量的向量场。VAF中的单位向量对其上方的下一组车道像素所在的方向进行编码。另一方面，HAF中的单位向量指向当前行中车道的中心，从而允许我们对任意宽度的车道进行聚类。然后，这两个亲和域与预测的二值分割相结合，可以用于将前景像素聚类成车道，作为后处理步骤。在接下来的几小节中，我们将讨论我们提出的方法中的每个单独块。

A 网络骨干
最近的车道检测方法使用了多种主干架构，但其中最流行的通常是ResNet系列架构[25]、ENet[7]和ERFNet[26]。尽管这些体系结构在各种任务中已证明具有优势，但我们相信，该领域的最新发展可以用于车道检测。为此，我们利用了[5]中提出的DLA-34主干。
DLA系列模型利用深层聚合，将语义和空间融合结合起来，以更好地定位和语义解释。特别是，该架构扩展了密集连接的网络[27]，并具有分层和迭代跳过连接的特征金字塔网络，从而深化了表示并细化了分辨率。它们采用了两种聚合形式：迭代深度聚合（IDA），侧重于融合分辨率和尺度，以及分层深度聚合（HDA），专注于合并所有模块和通道的特征。这些架构还结合了可变形卷积运算[28]，可基于其输入调整卷积的空间采样网格。我们认为这些是车道检测和实例分割任务所需的属性。

B 亲和域
除了二元车道分割掩码外，我们的模型还被训练用于预测水平和垂直亲和场（分别为HAFs和VAF）。对于任何给定的图像，HAF和VAF可以被认为是向量场H（·，·）和V（·，·），它们为图像中的每个（x，y）位置分配单位向量。正如我们前面提到的，HAF使我们能够水平聚类车道像素，垂直聚类V AF。使用预测的亲和域和二进制掩码，通过简单的从下到上逐行解码过程实现车道像素的聚类。本小节的其余部分详细介绍了如何使用地面真值创建此类亲和域，以及如何使用预测的亲和域来解码各个通道。

创建HAFs和VAFs：根据算法1中的详细说明，使用地面实况分割掩码动态创建亲和域。这是从下到上逐行进行的。对于图像中的任何行y，使用地面真值向量场映射Hgt（·，·）为每个车道点计算HAF向量，如下所示：

其中，是y行中属于车道l的所有点的平均x坐标。该过程如图2a所示，其中绿色和蓝色像素分别表示属于车道l和l+1的点

【图2（a）训练期间的HAF创建】

类似地，使用地面真值向量场映射V gt（·，·），为y行中的每个车道点计算V AF向量，如下所示：

其中是属于y行车道l的所有点的平均x坐标− 1.该过程如图2c所示，其中绿色像素表示属于车道l的点。注意，与HAF不同，VAF中的单位向量指向前一行车道的平均位置。

【图2（c）训练期间的 VAF创建】

（b）测试期间的HAF解

解码HAFs和VAFs：在训练模型以预测上述HAFs和V AFs之后，执行解码过程以在测试期间将前景像素聚类到车道中。该过程在算法2中给出，并且类似地从下到上逐行操作。
假设Hpred（·，·）是对应于预测HAF的矢量场，y− 1行中的前景像素首先根据以下规则分配给簇：
其中c∗haf其中表示前景像素的最佳聚类分配; Ck和Ck+1表示分别由k和k+1索引的两个不同簇。这种分配如图2b所示，其中红色像素被分配到同一簇。

【图2（b）测试期间的HAF解码】
接下来，使用与VAF相对应的向量场V pred（·，·），将这些水平聚类分配给由l索引的现有车道，如下所示：
这里，dCk（l）表示将群集Ck关联到现有通道l的错误：

其中，Nly是属于y行车道l的像素数。我们在图2d中说明了该过程，其中红色的聚类被分配给绿色的现有车道。通过从底部到顶部逐行重复上述步骤，我们可以将每个前景像素分配到各自的车道。

【图2（d）测试期间的VAF解码】

C 损失

为了训练所提出的模型，我们在每个prediction head使用单独的损失。对于我们的二进制分割分支，我们使用加权二进制交叉熵损失，这是不平衡二进制分割任务的标准损失。模型产生的原始Logit首先通过S形激活进行归一化。然后将损失计算为：

其中ti是像素i的目标值，oi是sigmoid输出。由于这是一个不平衡的分割任务，因此使用权重w来增加前景像素的惩罚。为了进一步说明不平衡数据集，分割分支使用了联合损失上的附加交集：

对于模型的亲和场分支，简单的L1回归损失仅应用于垂直和水平亲和场的前景位置：

应用于模型的总损失是单个损失的简单总和：

4 实验评价
A 实施细节
我们的主干架构（DLA-34）是一个完全卷积网络，它不保留原始分辨率，而是将输出缩小了4倍；因此，在运行期间，我们将输入图像重新缩放到其原始分辨率的一半，并将地面真值亲和域和分割掩码重塑为原始分辨率的八分之一（考虑到模型的缩小因子）。这还有一个额外的好处，就是我们的解码过程更快，因为我们现在只处理原始行的八分之一。解码时间通常取决于通道数、模型产生的输出质量和输出大小。在没有任何代码优化的情况下，现代CPU平均需要15-20毫秒。但是，由于这是一个完全基于CPU的操作，因此不应影响该方法的整体延迟。在训练过程中，我们还使用随机旋转、裁剪、缩放和水平翻转。
我们使用Adam优化器作为解算器，学习率为0.0001，权重衰减为0.001，总共训练40个周期。我们还采用了一个调度器，每10个周期将学习速率降低5倍。等式7中的损失的权重w被设置为9.6，因为在大多数公共数据集中，背景像素的数量大约是前景（车道）像素的9.6倍。为了避免过度拟合，通过保留在验证集上表现最佳的模型参数来实现早期停止。使用单个GTX Titan X Maxwell GPU，在CULane数据集上训练我们的模型，直到收敛（约25-30个周期）需要2-3天。通过使用更现代的GPU和在可用时使用多个GPU，可以获得显著的加速。

B 数据集
为了训练和测试我们提出的方法，我们使用了流行的TuSimple、CULane[11]和LLAMAS[29]数据集。TuSimple在各种日间照明和交通条件下都具有良好的天气条件，采用了最多五车道的高速公路。同时，CULane包含了更多的数据，并将测试图像分为九类，其中包含更复杂的场景，包括具有挑战性照明条件的图像。最后，LLAMAS数据集是一个较新的数据集，具有大量图像，这些图像都是通过高速公路记录获得的，并通过自动标记管道生成。表一汇总了所有数据集。

【表一：常用车道检测数据集的属性】

C 度量
我们使用过去文献中使用的相同评估指标，在我们的方法和之前的工作之间进行代表性比较。这包括TuSimple数据集的官方度量（准确性）、假阳性率（FP）和假阴性率（FN）。TuSimple精度计算如下：
数据集（准确性）、假阳性（FP）率和假阴性（FN）率。TuSimple精度计算如下：

其中，Npred是已正确预测的车道点数量，Ngt是地面真实车道点数量。
此外，我们报告了F 1度量，它基于并集上的交集（IoU），是CULane的唯一度量。如[11]所述计算：

其中精度定义为Tp/(Tp+Fp)，召回定义为Tp/(Tp+fn)，Tp是已正确预测的车道点的数量，Fp是假阳性的数量，fn是假阴性的数量。同样的F1度量也用于LLAMAS数据集的车道近似基准。

D 烧蚀实验
在本小节中，我们进行了一系列消融实验，以验证我们的设计选择。所有消融研究均在TuSimple验证集上进行，见表二。第一行包含标准LaneAF模型的结果，我们将其表示为基线模型B。首先，我们在没有IoU损失（B w\/o IoU）和加权二进制交叉熵损失（B w\/o wBCE）的情况下训练变量。消除这些损失大大降低了准确性，同时增加了假阳性和假阴性率。事实上，如果没有加权二元交叉熵损失，F1分数尤其显著下降。如第四行所示，在训练期间没有随机变换的基线模型（B w \/o RT）也观察到了同样的情况。
关于输出的下采样系数，很明显，基线模型的系数4达到了最佳结果；将其减小到2（B（DS-2））会增加运行时间，并略微恶化精度，而将其增大到8（B（DS-8））会对所有修改中的精度产生最大的影响。我们还训练了一个变量，输出头中有128个通道（B（HC-128））与原始的256个相比，虽然这种变化对精度的影响最小，但很明显，基线的256个通道产生了更好的结果。最后，为了验证我们的聚类方法相对于标准多类分割的优势，我们训练了一个DLA-34模型来直接执行所有车道的多类分割（DLA-34Multi-class）。该模型获得了所有变量中最差的F1和精度分数。这个结果清楚地说明了二元分割的有效性，然后是一种单独的基于亲和域的聚类方法。

【表二：TuSimple验证集上的LaneAF消融实验】

E 结果

LaneAF在TuSimple基准上的性能结果如表三所示。可以看出，我们的误报率在当前最先进水平中设定了一个新标准（0.0280）。这表明，我们的模型不会像其他网络那样经常错误地检测车道像素，并且LaneAF的多分支方法导致可靠的车道像素预测。虽然我们获得了优于其他骨干架构（如ResNet-18和-34[25]）的精度，但我们的方法略低于当前最先进的模型，如PINet[17]、ENet SAD[14]和SCNN[11]。然而，我们的假阴性率仅略高，这意味着分类错误的车道像素很可能位于车道的最末端。此外，使用不同的随机种子对该数据集进行了六次训练，在精度度量上产生了0.12的标准偏差。从这些结果的一致性可以看出，我们提出的方法是鲁棒的。

【表三：TuSimple基准的LaneAF结果】

表四显示了我们基于CULane基准的模型的最新结果。通过这个大得多、复杂得多的数据集，我们可以看出，相对于其他模型，LaneAF的性能得到了极大的证明，并证明了我们网络的泛化能力。LaneAF（配备DLA-34）的F1成绩为77.41%，超过了目前最先进的机型，超过了同类机型，甚至超过了LaneA TT[22]，其最大的主干是ResNet-122。此外，LaneAF在大多数类别中都设置了新的基准，包括眩目、阴影、无线、曲线和夜间等困难类别，展示了我们的模型对弯曲道路和具有挑战性的照明条件的高度适应性。

【表四：LaneAF在CULane基准上的最新结果】

对于CULane数据集，我们还使用ENet[7]和ERFNet[26]骨干训练了LaneAF模型，其中我们放弃了最后几个上采样/转置卷积层，以确保下采样因子为4（与DLA-34变体相同）。这使我们能够直接比较我们的方法和使用相同主干架构的其他方法。例如，与F1得分相比，具有ENet主干的LaneAF比ENT SAD[14]高出3%以上。当使用ERFNet作为骨干网络时，LaneAF的F1得分分别以1.63%和3.23%的优势超过了其他基于ERFNet的模型，如ERFNet-E2E[34]和ERFNet Intra-KD[31]。这些比较证实，LaneAF的性能增益是通过DLA-34主干和我们提出的基于亲和域的聚类的组合实现的。
此外，LaneAF在LLAMAS数据集上再次实现了最先进的性能，F1得分为96.07%。这比LaneATT的[22]最佳模型高出2%以上，如表V所示。这种性能差距是由于LaneAF的高召回分数，这表明该模型更善于检索真实车道像素。
图3a和3b描述了我们方法中预测的亲和力场的定性示例。此处所示的ClusteredOutput是使用算法2中概述的亲和域解编码器创建的。在图3a中，HAF向量指向输出图像每行各自车道线的中心。车道群仍然被成功地分离，尽管在许多行中位置很近，如图3a的黄色方框所示。同样，在图3b中，V AF向量沿着车道指向下一行车道像素的平均位置。这在图3b的黄色框中可见，其中对于每个唯一车道实例，单位向量指向下一行的平均车道像素位置。对于图3a和3b，蓝色框清楚地显示了如何为单个检测到的车道实例实现HAF和V AF。

【图3：由LaneAF产生的具有颜色编码的亲和域的示例输出；每种颜色表示基于亲和域解码的唯一车道实例。值得注意的是，即使在车道会聚时，车道实例也能成功区分。】
另一个需要注意的关键点是模型在离摄像机较远的车道点处的精度。由于每个车道的地面实况分割掩模在图像平面中从上到下具有大致相同的厚度，因此训练模型以预测车道点的厚前景掩模，即使它们距离较远。这导致距离较远的车道点几乎没有退化。然而，在地平线上，由于车道线非常接近，一些集群偶尔会被分配给非最佳车道。
在图4中，我们展示了来自样本数据集（第1行）、CULane数据集（2-4行）和LLAMAS数据集（4行）的其他定性结果。TuSimple示例展示了LaneAF在弯曲高速公路和因出入口而合并和分裂的车道上的高性能，突出了我们的模型对给定道路上存在的车道数的灵活性。在第一行的中间图像中还值得注意的是，由于飞机轨迹，车道线的错误检测。所显示的结果包括挑战性场景，说明了LaneAF在弯曲道路和非常恶劣的照明条件下的鲁棒性。这组不同的示例展示了CULane数据集的炫目、阴影、曲线和夜间类别的特征。最后，与TuSimple示例类似，LLAMAS示例在其他公路场景中显示了出色的性能。

【图4：TuSimple（第1行）、CULane（第2-4行）和LLAMAS（第5行）的LaneAF定性结果】

5 结论

在本文中，我们提出了一种新的车道检测和实例分割方法，通过使用二进制分割掩码和每像素亲和域。在后处理步骤中，水平和垂直亲和域以及预测的二元掩码被证明能够成功地将车道像素聚类到唯一的车道实例中。这是使用简单的逐行解码过程实现的，开销很小，并且使LaneAF能够检测任意宽度的可变车道数，而不需要假设固定或最大车道数。与以前的视觉方法相比，这种形式的聚类也更易于解释，因为它可以被分析以容易地识别和纠正错误源。进行的消融研究也验证了该方法相对于标准多类分割的有效性。我们提出的方法在TuSimple基准上实现了最低的误报率（0.0280）；在更大、更全面的CULane数据集上，LaneAF以77.41%的F1总分获得了最新的结果，超越了更深入、更复杂的模型。LaneAF还以显著的优势（+2%）在LLAMAS基准上取得了最先进的F1成绩，突出了其强劲的表现