论文翻译2----RESA: Recurrent Feature-Shift Aggregator for Lane Detection【RESA：用于车道检测的递归特征移位聚合器】

迷你G

已于 2022-08-27 11:46:51 修改

阅读量826

点赞数

分类专栏：论文学习文章标签：深度学习人工智能计算机视觉

于 2022-08-20 10:02:23 首次发布

原文链接：https://arxiv.org/abs/2008.13719#:~:text=In%20this%20paper%2C%20we%20present%20a%20novel%20module,spatial%20relationships%20of%20pixels%20across%20rows%20and%20columns.

版权

论文学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

链接：[2008.13719] RESA: Recurrent Feature-Shift Aggregator for Lane Detection (arxiv.org)

摘要：车道检测是自动驾驶中最重要的任务之一。由于各种复杂场景（如严重遮挡、车道模糊等）以及车道注释中固有的稀疏监控信号，车道检测任务仍然具有挑战性。因此，普通卷积神经网络（CNN）很难在一般场景中训练，以从原始图像中捕捉细微的车道特征。在本文中，我们提出了一个名为递归特征移位聚合器（RESA）的新模块，用于在使用普通CNN进行初步特征提取后丰富车道特征。RESA利用车道的强形状先验，捕获行和列之间像素的空间关系。它在垂直和水平方向上重复移动切片特征图，并使每个像素能够收集全局信息。RESA通过聚集切片特征图，可以在外观线索较弱的挑战场景中准确地推测车道。此外，我们提出了一种双边上采样解码器，它在上采样阶段结合了粗粒度和精细细节特征。它可以细致地将低分辨率特征图恢复为像素级预测。我们的方法在两个流行的车道检测基准（CULane和Tusimple）上实现了最先进的结果。代码已在以下网址提供：https://github.com/ZJULearning/resa。

介绍：
车道检测是计算机视觉领域的一项重要任务。它可以作为自动驾驶和高级驾驶员辅助系统（ADAS）的重要提示（bar hillel等人，2014年），以防止车辆停留在车道标记之外。由于其他车辆造成的严重阻塞、恶劣的天气条件、模糊的路面以及车道本身固有的细长特性，在野外检测车道具有挑战性。
现代算法（Chen和Chen 2017），（Bergasa et al.2018），（Chen、Liu和Lian 2019）通常采用逐像素预测公式，即将车道检测视为语义分割问题，其中图像中的每个像素都分配有一个二进制标签，以指示其是否属于车道。这些方法通过编码器框架解决了这个问题。他们首先使用CNN作为编码器将高语义信息提取到特征图中，然后使用上采样解码器将特征图恢复到其原始大小，最后执行逐像素预测。由于车道的细长特性，带注释车道像素的数量远少于背景像素。这些方法往往难以提取细微的车道特征，并且可能忽略车道之间的强形状先验或高相关性，从而产生较差的检测性能。更具挑战性的情况是，车道可能几乎完全被拥挤的车辆阻塞，我们只能凭常识推测车道。因此，普通CNN提取的低质量特征往往会丢失细微的车道特征。有几种方法试图在特征图中传递空间信息，例如SCNN（Pan等人，2018）。SCNN通常提出空间卷积，以在特征图内的相邻行或列之间传递信息。然而，顺序信息传递操作非常耗时，导致推理速度较慢。同时，在相邻行或列之间顺序传递信息需要多次迭代，并且信息可能在长距离传播过程中丢失。
在本文中，我们开发了一种递归特征移位聚合器（RESA），用于在特征地图中收集信息，并更直接、更有效地传递空间信息。如图1所示，RESA可以通过反复移动切片特征图来垂直和水平聚集信息。RESA将首先在垂直和水平方向上对特征图进行切片，然后使每个切片特征接收到与特定步幅相邻的另一个切片特征。每个像素在几个步骤中同时更新，最后每个位置可以在整个空间中收集信息。这样，信息可以在特征图中的像素之间传播。RESA有三个主要优点：1）RESA以并行方式传递信息，从而显著减少时间成本。2）信息将在RESA中以不同的步伐传递。因此，可以在传播期间收集不同的切片特征图而不丢失信息。3） RESA简单灵活，可并入其他网络。

【图1：功能聚合说明。（a） CNN语义分割与我们的方法（RESA）的比较。由于严重遮挡，普通CNN的分割方法性能较差。（b）特征聚合的图示。由于层中的水平和垂直特征聚集，可以丰富空间车道特征。因此，即使车道被遮挡，RESA也可以推断出车道。我们添加了不同的步长来收集不同距离内的特征，这缓解了长距离传播过程中的信息丢失问题。】
然后，我们提出了双边上采样解码器（BUSD）。BUSD有两个分支。一种是捕捉粗粒度特征，另一种是捕获精细细节特征。粗略分支直接应用双线性向上采样并生成模糊图像。相反，详细分支使用转置卷积实现上采样，然后是两个non-bottleneck blocks（Romera等人2017），以修复精细详细损失。结合两个分支，我们的解码器可以将低分辨率特征映射精确地恢复为像素级预测。
我们在两个流行的车道检测基准上评估了我们的方法，即CULane和Tusimple。从定性上讲，RESA可以很好地保持车道检测的平滑性和连续性，如图1所示。此外，实验结果表明，RESA达到了最先进的精度（CULane上的F1测量值为75.3%，Tusimple上的精度为96.8%）。
主要贡献可归纳如下：
• 我们建议RESA通过在垂直和水平方向上重复移动切片特征地图来聚集空间信息。RESA可以很容易地整合到其他网络中以获得更好的性能。
• 进一步提出了双边上采样解码器来仔细恢复低分辨率特征图。
• 该网络在CULane和Tusimple基准上实现了最先进的性能。它可以作为一个强大的基线，以促进未来车道检测的研究。

相关工作：

车道线检测：车道检测方法可分为两类：传统方法和基于深度学习的方法。传统方法试图利用手工制作的低级功能或专用功能。Sun、Tsai和Chan（2006）尝试在HSI颜色表示中检测车道，Yu和Jain（1997）通过Hough变换提取车道边界。这些方法需要复杂的特征选择过程，并且由于道路场景的变化而具有可扩展性差的弱点。近年来，深度学习方法在车道检测方面显示出了优越性，具有以端到端方式学习车道特征的高容量。Huval等人（2015年）首次将深度学习方法应用于CNN车道检测。Neven等人（2018）提出将车道检测问题作为实例分割问题。Philion（2019）将车道解码步骤集成到网络中，并在不使用递归神经网络的情况下迭代绘制车道。自注意力蒸馏（SAD）被提议允许模型从自身学习，并在没有任何额外监督或标签的情况下获得实质性改进（Hou等人，2019年）。
空间信息利用：还有一些其他的尝试在神经网络中利用空间信息。ION（Bell等人，2016）探索了空间递归神经网络（RNN）的使用。这些RNN在图像上水平和垂直传递空间变化的上下文信息。Liang等人（2016）构建了图LSTM，为语义对象解析提供信息传播路径。SCNN（Pan et al.2018）提出将传统的逐层卷积推广到特征图中的逐片卷积，从而实现同一层中跨行和列的像素之间的消息传递。SCNN将消息作为残差进行传播，并使其比以前的工作更易于训练，但在长距离传播过程中仍会遭受昂贵的计算和信息损失。RESA在计算效率上比SCNN高得多，同时以不同的步长从切片特征中收集信息，以避免信息丢失。

方法：

本节将演示我们设计的模型的细节，包括总体网络架构、RESA和双边上采样解码器。
为了利用车道的强形状先验并捕获行和列之间像素的空间关系，我们提出了一种新的RESA模块来收集信息并丰富特征图。将RESA插入编码器-解码器框架后，我们的模型由三个组件构成：编码器、聚合器和解码器。我们选择常用的主干，如ResNet（He等人2016）、VGG（Simonyan和Zisserman 2015）等作为编码器，从原始图像中提取初步特征。然后应用RESA模块对车道特征进行聚合，得到丰富的特征图。提出了一种具有粗粒度分支和精细细化分支的新型双边上采样解码器，以平滑、连续地恢复车道。

总体网络架构：

整个网络架构如图2（a）所示。该框架由三个组件组成

【图2：架构设计。（a）该模型的总体架构由编码器、RESA和解码器组成。在RESA的第k次迭代中，Dk、Uk、Lk、Rk分别表示“从上到下”、“从下到上”、“从右到左”和“从左到右”。（b） RESA U模块。在这个模块中，信息以不同的步幅反复、同时地“从下到上”传播。（c） RESA R模块。在这个模块中，信息以不同的步幅反复同时“从左到右”传播。】

1.编码器：采用VGG、ResNet等常用骨干网络作为特征提取器。通过编码器后，原始输入图像的大小减小到1/8。在此阶段将提取初步特征。
2.RESA：提出了用于收集空间特征的递归特征移位聚合器（RESA）。在每次迭代中，切片特征图将在4个方向上重复移动，并垂直和水平传递信息。最后，RESA需要K次迭代，以确保每个位置都可以接收整个特征图中的信息。
3.解码器：解码器由双边上采样块组成。每个块采样两次，最后将1\/8特征图恢复到原始大小。双边上采样译码器由粗粒度分支和细细节分支组成。
在解码器上采样后，输出特征图用于预测每条车道的存在性和概率分布。在全连通层之后进行存在性预测，并执行二元分类。车道概率分布预测将进行像素级预测，这与语义分割任务相同。

递归特征移位聚合器：

我们提出了递归特征移位聚合器（RESA），通过水平和垂直移位切片特征图来收集空间信息。具体来说，假设我们有一个尺寸为C×H×W的三维特征映射张量X，其中C、H和W分别表示通道、行和列的数量。表示第k次迭代时特征图X的值，其中c，i和j分别表示通道、行和列的索引。则RESA的正向计算定义如下：

其中，K是迭代次数。式（1）和式（2）中的L分别为W和H。f是作为ReLU的非线性激活函数。上标为0的X表示已更新的元素。是第k次迭代中的偏移步长。等式（1）和等式（2）表示垂直和水平信息传递公式。F是一组一维卷积核，其大小为，其中、和w表示输入通道数、输出通道数和核宽度。Nin和Nout都等于等式（1）中的C.Z，等式（2）是信息传递的中间结果。注意，如图2（b）和图2（c）所示，特征图X在水平方向上被分成H个切片，在垂直方向上被分割成W个切片。我们实现了通过索引计算简单传递递归特征移位信息，而无需其他复杂操作。移位步长由迭代次数k控制，迭代次数k动态确定信息传递距离。
另外，请注意，传递的信息有四个方向。我们使用“从下到上”（如图2（b）RESA U所示），“从上到下”作为垂直信息聚合器，“从左到右”（图2（c）RESA R），“从右到左”作为水平信息聚合器。具有相同偏移步长的卷积层权重在同一方向的所有切片上共享。
我们以“从右向左”的信息传递为例，详细信息如图3所示。在k=0迭代时，s1=1，每列中的Xi可以接收到Xi+1移位特征。由于反复移位，尾部的列也可以接收另一侧的特征，即Xw−1可以接收X0移位特征。在k=1迭代时，s2=2，每列中的Xi可以接收Xi+2移位特征。以X0为例，X0可以在第二次迭代中接收X2信息，考虑到X0在上一次迭代中从X1接收了信息，而X2在上一个迭代中从X3接收到信息，现在X0仅在两次迭代中总共从X0、X1、X2和X3接收了信息。下一次迭代类似于上述过程。在所有K次迭代之后，当迭代K=K时，每个Xi可以在整个特征图中聚集信息。

【图3:s1=1和s2=2时在RESA中传递的信息。X0在两次迭代中,只能从X0、X1、X2和X3（来自于第一次迭代时X2收到了X3的信息）接收信息。】

分析:

RESA在4个方向上重复应用特征移位操作，使每个位置都能感知并聚合同一特征图中的所有空间信息。车道检测是一项高度依赖周围线索的任务。例如，一条车道被几辆车挡住，但我们仍然可以从其他车道、车辆方向、道路形状或其他视觉线索推断出它。RESA聚集来自其他位置的特征以丰富特征地图，并帮助模型像人类一样推测车道。新颖而强大的RESA模块主要有三个优点，其结论如下：
1.计算效率高。传统的信息传递方法，如Markov Random Field（MRF）或Con-
ditional Random Field （CRF）（Krähenbühl和Koltun 2011），其中每个像素以完全连接的方式接收所有其他像素信息，总是受到密集和冗余计算的影响。一些方法，如SCNN（Pan et al.2018）实现了更有效的信息传递方案，即逐片卷积。然而，这种类似于RNN的方法仍然消耗大量时间，因为复杂度随着空间大小的增长而线性增加，并且顺序传播不能充分利用计算资源。RESA的复杂性与日志级别的空间大小有关，并且在每次迭代中以并行方式更新所有位置。在迭代中，每个位置都可以从整个特征图中聚合信息。
2.有效收集特征信息。切片特征信息不仅会传递给相邻切片，还会以不同的步长传递给切片特征图，即=1、2、4、8、···。因此，每个像素都可以从切片特征图中收集信息，而不会在传播过程中丢失信息。如图5所示，RESA可以获得比SCNN更好的性能，因为SCNN仅将特征信息传递给相邻节点，并且在传播期间丢失信息。
3.易于插入其他网络。没有 bells和whistles，结构非常简洁。首先，RESA的实现非常简单，只需要在特征图中进行索引操作。其次，RESA不会改变输入特征图的形状，可以将其视为特征增强模块。理想的位置是在特征提取CNN之后，如VGG（Simonyan和Zisserman 2014）、ResNet（He等人2016）、MobileNet（Howard等人2017）等。最后，RESA的计算时间几乎可以忽略。总之，RESA可以灵活地接入其他CNN网络。由于RESA在特征聚合、场景理解和具有不同几何先验的对象检测方面功能强大，因此适合应用场景。

双边上采样解码器：

解码器的主要任务是将特征映射上采样到输入分辨率。大多数解码器利用双线性上采样过程来恢复最终的逐像素预测，这很容易获得粗略的结果，但可能会丢失细节。一些方法（Romera等人，2017）使用叠加卷积运算和反卷积运算来获得精确的上采样结果。出于上述动机，我们结合它们的优点，提出了双边上采样解码器（BUSD）。解码器由两个分支组成，一个是恢复粗粒度特征，另一个是修复精细细节损失。该结构如图4所示。输入将通过两个分支，并将产生具有一半通道数的2倍上采样输出（长宽都变成2倍）。通过这些堆叠的解码器块后，RESA生成的1/8特征图将恢复到与输入图像相同的大小。（1/8 * 2*2+1/8 * 2*2 =1）

【图4：双边上采样解码器。解码器将特征映射上采样到2倍大小。它由粗粒度分支（左）和细粒度分支（右）组成。粗粒度分支用于快速获得粗上采样特征，并忽略许多细节。精细细节分支用于微调细微信息丢失】

粗粒度分支。粗粒度分支将快速输出最后一层的粗采样特征，这可能会忽略细节。设计了一条简单而浅的路径。我们首先应用1×1卷积将通道数减少输入特征图的2倍，然后使用BN（Ioffe和Szegedy 2015）。双线性插值直接用于对输入特征图进行上采样。最后，执行ReLU。
细枝末节。细节分支用于微调粗粒度分支的细微信息丢失，并且路径比另一个更深。我们使用带步长2的转置卷积对特征图进行上采样，同时将通道数减少2倍。按照粗粒度分支中使用的类似设计，对ReLU进行后续采样。Non-bottleneck block（Romera et al.2017）包含四个 3×1和1×3的conv+BN+ReLU，可以保持特征图的形状，并以因式分解的方式有效提取信息。在上采样操作之后，我们堆叠了两个Non-bottleneck block。

【自己找的图】

实验：

数据集：

我们在两个广泛使用的车道检测基准数据集上进行实验：CULane数据集（Pan et al.2018）和Tusimple车道检测基准1。CULane数据库由55小时的视频组成，包括城市和公路场景。它由九种不同的场景组成，包括正常场景、人群场景、曲线场景、眩目夜晚场景、夜晚场景、无线场景和市区箭头场景。Tusimple数据集是在公路上稳定的照明条件下收集的。数据集的详细信息如表1所示。

【表1：数据集说明】

CULane.对于CULane数据集，每个车道被视为一条30像素宽的线。联合交集（IoU）是在预测和地面实况之间计算的。IoU大于阈值（0.5）的预测车道被视为真正（TP）。以F1测度作为评估指标，定义为：，其中和，F P和F N分别为假阳性和假阴性。
Tusimple.对于Tusimple数据集，评估指标是准确性。它的定义如下：。其中Cclip是正确预测的车道点的数量（预测和地面实况之间的失配距离在一定范围内），是每个剪辑中地面实况点的总数。我们还评估了预测结果的假阳性率（FP）和假阴性率（FN）。
接下来（Hou等人，2019年），我们首先将原始图像的大小分别调整为CULane的288×800和Tusimple的368×640。我们使用动量为0.9且权重衰减为1e-4的SGD（Bottou 2010）作为优化器来训练我们的模型，CULane和Tusimple的学习率分别为2.5e-2和2.0e-2。我们在前500批中使用预热（Doll、Girshick和Noordhuis 2017）策略，然后应用多项式学习率衰减策略（Mishra和Sarawadekar 2019），功率设置为0.9。
损失函数与SCNN（Pan等人，2018）相同，由分段BCE损失和存在分类CE损失组成。考虑到背景和车道标记之间的标签不平衡，背景的分割损失乘以0.4。CULane和Tusimple的批次大小分别设置为8和4。对于TuSimple数据集，训练历元的总数设置为50，对于CULane数据集，设置为12。所有型号都使用Ubuntu中的4个NVIDIA 2080Ti GPU（11G内存）进行训练。所有实验都是用Pytorch1.1实现的。
在我们的实验中，我们使用ResNet（He等人2016）和VGG（Simonyan和Zisserman 2014）作为主干。在ResNet中，我们添加了额外的1×1卷积以将输出信道减少到128。VGG的修改与SCNN相同。

主要结果：

我们在双车道检测基准数据集上展示了我们的方法的结果，并将其与其他流行的车道检测方法进行了比较。对于CULane数据集，使用了几种流行的车道检测方法进行比较，包括ResNet50（Chen等人2017）、Res34 VP（Liu、Zeng和Meng 2020）、SCNN、Res34 SAD（Hou等人2019）、Res34 Ultra（Qin、Wang和Li 2020）、PINet（Ko等人2020）、CurveLane（Xu等人2020）。我们的RESA采用ResNet50作为主干，标记为RESA-50。结果如表2所示。通过整体设计，RESA优于CULane数据集中的所有基线，并实现了最先进的结果。同时，RESA-50可以达到36fps，这表明我们的方法计算效率高，可以用于实时应用。此外，据观察，我们的方法在几乎所有场景中都获得了优异的性能，这有力地表明了RESA的有效性和通用性。对于Tusimple车道检测基准，使用了六种方法进行比较，包括ResNet18、ResNet34、ENet（Paszke等人2016）、LANEET（Wang、Ren和Qiu 2018）、ENet SAD和SCNN。我们使用ResNet-18/34作为主干，并将其标记为RESA-18/34。结果如表3所示。RESA-34的准确率达到96.82%，也优于最先进的技术。我们还分析了每种方法的FP和FN。值得注意的是，RESA的FP远低于其他算法，这意味着RESA在车道检测任务中获得了更高的精度，并有助于实现更高的精确度。

【表2:IoU阈值为0.5的CULane数据集的最新结果对比。对于交叉部分，仅显示FP。Res50表示使用resnet50作为主干的深度实验室（Chen等人，2017）。】

【表3：与Tusimple数据集最新结果的比较。ResNet-18/34表示使用resnet18和resnet34作为主干的深度实验室（Chen等人，2017年）】

为了进一步解释我们方法的有效性，我们在CULane数据集中展示了我们算法和其他算法的定性结果。如图5所示，由于严重遮挡，分割方法无法保持车道标记的平滑性和连续性。相比之下，SCNN可以通过传递空间信息部分解决该问题并提高性能，但结果仍然不令人满意。可以观察到，SCNN的预测在图像的底部变得不精确，在那里只能通过周围特征推断。这表明在长距离传播期间，SCNN中可能会丢失信息。在这些方法中，RESA可以捕获像素跨行和跨列的空间关系，并以不同的步长从切片特征图中聚合信息。因此，RESA的结果更稳健，包含更少的噪声。这表明，与传统分割模块和SCNN相比，RESA具有更强的捕获结构化先验对象的能力。

【图5：使用分割方法、SCNN和RESA的CULane数据集的示例结果。】

烧蚀研究：

在方法部分，我们讨论了递归特征移位聚集器（RESA）和双向上采样解码器（BUSD），并分别分析了每个模块的优点。为了验证每个提议组件的重要性，我们在本节中进行了详细的烧蚀研究。
每种成分的作用。我们首先研究了双边上采样解码器模块和RESA模块的有效性。对于基线，我们选择ResNet-34作为主干。从主干提取后，与SCNN一样，使用双线性插值直接对特征图进行8倍上采样。将输出用作回归，最终得到每条车道的概率分布。
为了进行比较，我们用双边上采样解码器代替双线性插值，然后逐步在主干和解码器之间插入RESA。我们在表4中总结了每个模块的性能。如我们所见，两个模块都可以显著提高车道检测性能，这证明了所提出模块的能力。

【表4：在具有ResNet-34主干的CULane数据集上对拟议模块的实验。基线表示主干线之后直接进行8倍上采样。】

特征聚合的有效性。在本节中，我们研究了方向对RESA的影响。当我们在RESA中添加更多方向时，我们可以获得更高的F1-measure。结果如表5所示。.此外，我们研究了等式3中的特征聚合方法。我们用最大算子代替加法算子。结果表明，最大算子具有与加法算子相似的性能。

【表5:RESA在具有ResNet-34主干的CULane数据集上的特征聚合的有效性。†是指均值最大特征聚合方法】

RESA中的迭代。在本节中，我们将探讨RESA中不同迭代的效果。理论上，随着迭代次数的增加，特征图的每个切片可以聚集更多的信息，这有助于获得更好的性能。为了说明更多的迭代可以带来更好的性能，我们对不同的迭代进行了比较，即迭代=1，···，5。如表6所示，随着迭代次数的增加，性能会更好。然而，更多的迭代导致更多的计算时间开销。这是性能和计算资源之间的权衡。为了在两者之间取得平衡，我们选择迭代=4作为最终选择。

【表6：在具有ResNet-34主干的CULane数据集上使用不同迭代的模型性能。】

RESA与SCNN比较。SCNN（Pan等人，2018）表明，消息传递方案可以提高车道检测性能，但额外的更多参数只能带来很少的改善。因此，我们将RESA与SCNN进行了比较，以验证我们方法的有效性。我们尝试添加具有不同主干的RESA和SCNN（例如ResNet、VGG）。我们进行了实验以比较SCNN的性能。实验结果如表7所示。结果表明，RESA优于SCNN，并带来显著改进。

【表7：使用VGG16和ResNet34作为主干训练的SCNN和RESA之间的比较。】

计算效率。我们还进行了实验以比较我们的方法与LSTM、SCNN的运行时间。这些方法的运行时间记录为1000次运行的平均时间。我们使用不同的卷积核宽度（7、9、11）来比较效率。SCNN以顺序的方式传播信息，即，一个切片在从上一个切片接收到信息之前不会将信息传递给下一个切片。因此，由于顺序计算，这种消息传递需要大量计算成本。相反，我们的RESA以并行方式传递信息。如表8所示，在相同内核宽度的情况下，RESA比SCNN快约10倍，这使其有望将我们的方法应用于实时应用。

【表8：LSTM、SCNN和RESA的运行时间。RESA中的迭代为4】

结论：

在本文中，我们提出了两个适合车道检测的组件：递归特征移位聚集器（RESA）和双边上采样解码器（BUSD）。RESA利用车道的强形状先验，捕获行和列之间像素的空间关系。它在垂直和水平方向上重复移动切片特征图，并使每个像素能够收集全局信息。此外，它可以很容易地插入其他网络。提出了一种双边上采样解码器，在上采样阶段将粗粒度特征和精细细节特征相结合。我们的方法在两个流行的车道检测基准数据集上进行了评估，即Tusimple和CULane，并达到了最先进的性能。