GANet: A Keypoint-based Global Association Network for Lane Detection (CVPR 2022)

声明:此翻译仅为个人学习记录

文章信息

摘要

  车道检测是一项具有挑战性的任务,需要预测车道线的复杂拓扑形状并同时区分不同类型的车道。早期的工作遵循自上而下的路线图,将预定义的锚回归到各种形状的车道线中,由于锚的形状固定,因此缺乏足够的灵活性来适应复杂形状的车道。最近,一些工作提出将车道检测公式化为一个关键点估计问题,以更灵活地描述车道线的形状,并以逐点的方式逐渐对属于同一车道线的相邻关键点进行分组,这在后处理过程中效率低且耗时。在本文中,我们提出了一个全局关联网络(GANet)来从一个新的角度来表述车道检测问题,其中每个关键点直接回归到车道线的起点,而不是逐点扩展。具体地说,关键点与其所属车道线的关联是通过全局预测它们与车道的相应起点的偏移来进行的,而不相互依赖,这可以并行进行,以大大提高效率。此外,我们还提出了一种车道感知特征聚合器(LFA),它自适应地捕获相邻关键点之间的局部相关性,以向全局关联补充局部信息。在两个流行的车道检测基准上进行的大量实验表明,我们的方法优于以前的方法,在CULane上的F1得分为79.63%,在具有高FPS的Tusimle数据集上的F1分数为97.71%。

1. 引言

  自动驾驶[10]引起了学术界和工业界研究人员的极大关注。为了确保汽车在行驶过程中的安全,自动驾驶系统需要保持汽车沿着道路上的车道线行驶,需要准确感知车道线。因此,车道检测在自动驾驶系统中发挥着重要作用,尤其是在高级驾驶员辅助系统(ADAS)中。

在这里插入图片描述

图1. (a) 基于锚点的方法,将预定义的锚点回归为车道形状。(b) 基于关键点的方法,预测关键点到其邻域之间的偏移,以逐个对其进行分组。(c) 我们的GANet的说明,它通过预测每个关键点与其对应车道线的起点之间的偏移量,将每个关键点直接回归到其所属车道。(d) 我们的LFA模块的说明,它将每个关键点与其相邻点相关联,以进行局部信息补充。

  给定安装在车辆上的摄像头拍摄的正面图像,车道检测旨在产生道路上每条车道线的准确形状。由于车道线的形状很细,并且需要进行等级判别,因此适当地制定车道检测任务至关重要。受基于锚的目标检测方法[22]的启发,一些工作[10,25]遵循自上而下的设计,如图1a所示。与目标检测类似,具有不同方向的一组直线被定义为锚点。通过预测定位点和车道点之间的偏移,将定位点上的点回归到车道线。然后,应用非最大抑制(NMS)来选择具有最高置信度的车道线。尽管这种方法在车道识别方面是有效的,但由于预定义的锚形状,它是不灵活的。强形状先验限制了描述各种车道形状的能力,导致这些方法的性能次优。

  为了灵活描述复杂形状的车道线,Qu等人[21]提出将车道检测公式化为一个关键点估计和关联问题,该问题采用自下而上的设计,如图1b所示。具体来说,车道是用一组有序的关键点来表示的,这些关键点以稀疏的方式均匀采样。每个关键点通过估计它们之间的空间偏移来与其邻居相关联。通过这种方式,属于同一车道的关键点被迭代地集成到连续曲线中。尽管基于关键点的方法在车道线的形状上是灵活的,但在每一步仅将一个关键点与其所属车道线关联是低效且耗时的。此外,由于缺乏全局观,关键点的逐点扩展容易导致误差积累。一旦错误地关联了特定的关键点,车道线的其余部分的估计将失败。

  为了克服上述局限性,我们从一个新的基于关键点的角度来阐述车道检测问题,其中每个关键点都直接回归到其所属的车道,在此基础上提出了一个名为全局关联网络(GANet)的新管道。如图1c所示,每条车道线的起点都是唯一的,很容易确定,没有歧义。为了正确地关联关键点,我们估计从关键点到其相应起点的偏移量。近似起点位于同一邻域的关键点将被分配给同一车道线实例,从而将关键点分为不同的组。与以前的基于关键点的方法[21]不同,我们将关键点分配给其所属的车道是相互独立的,并使并行实现变得可行,这大大提高了后处理的效率。此外,由于每个关键点都拥有全局视图,因此关键点关联对累积的单点误差更具鲁棒性。

  尽管属于同一车道线的关键点在后处理过程中被积分,但重要的是要确保相邻点之间的相关性,以获得连续的曲线。为此,我们开发了一个名为车道感知特征聚合器(LFA)的局部信息聚合模块,以增强相邻关键点之间的相关性。为了适应车道的细长形状,我们通过预测到相邻点的偏移量来修改标准2D可变形卷积[3]的采样位置,以便每次在车道上的局部区域内进行采样。通过这种方式,每个关键点的特征与其他相邻点聚合,从而获得更具代表性的特征。我们进一步添加了辅助损失,以便于估计在每个关键点上预测的偏移。我们的LFA模块补充了全局关联过程,以启用局部和全局视图,这对于车道检测等密集标记任务至关重要。

  我们的贡献总结如下:

  • 我们提出了一种新的全局关联网络(GANet),从一个新的基于关键点的角度来制定车道检测,该网络直接将每个关键点回归到其所属车道。据我们所知,我们是第一个以全局方式回归关键点的人,这比局部回归更有效。

  • 我们开发了一个名为车道感知特征聚合器(LFA)的局部信息聚合模块,以增强相邻关键点之间的相关性,从而补充局部信息。

  • 我们提出的GANet在两个流行的车道检测基准上以更快的速度实现了最先进的性能,这表明我们的全局关联公式具有卓越的性能-效率权衡和巨大的潜力。

2. 相关工作

2.1 车道检测方法

  车道检测的目的是获得准确的车道线形状并区分它们。根据车道建模的方式,目前基于深度学习的方法大致可以分为几类。我们将在本节中单独阐述这些方法。

  基于分割的方法。基于分割的方法将车道线检测建模为每个像素的分类问题,每个像素被分类为车道区域或背景[6,8,16,18]。为了区分不同的车道线,SCNN[18]将不同车道线视为不同的类别,从而将车道检测转化为多类别分割任务。还提出了一种逐片CNN结构,以实现消息在行和列之间的传递。为了满足实践中的实时性要求,ENet SAD[6]将自注意蒸馏机制应用于上下文聚合,以允许使用轻量级主干。LaneNet[16]采用了一种不同的车道表示方式,将车道检测作为实例分割问题。包括二进制分割分支和嵌入分支,以将分割结果分解为车道实例。与LaneNet不同,我们的方法使用偏移量而不是嵌入特征来对每条车道线进行聚类,这更高效、更省时。

  基于检测的方法。这种方法通常采用自上而下的方式来预测车道线。其中,基于锚的方法[10,25,28]设计线形锚,并回归采样点和预定义锚定点之间的偏移。然后应用非最大抑制(NMS)来选择具有最高置信度的车道线。LineCNN[10]使用从具有特定方向的图像边界发射的直线射线作为一组锚点。Curve NAS[28]将锚点定义为垂直线,并进一步采用神经结构搜索(NAS)来搜索更好的主干。LaneATT[25]提出了一种基于锚点的池化方法和注意力机制,以聚合更多的全局信息。另一种方法[14,20]将车道检测公式化为按行分类问题。对于每一行,模型预测可能包含车道线的位置。

  基于关键点的方法。受人体姿态估计的启发,一些工作将车道检测视为一个关键点估计和关联问题。PINet[9]使用堆叠沙漏网络[17]来预测关键点位置和特征嵌入。基于特征嵌入之间的相似性对不同的车道实例进行聚类。FOOLLANE[21]生成具有与输入相同分辨率的逐像素热图,以获得车道上的点。还开发了一种局部几何构造方式来关联属于同一车道实例的关键点。我们的GANet采用了一种更有效的后处理方法,既不需要特征嵌入,也不需要局部关联来聚类或重建整个车道。每个关键点通过以平行方式将其带有偏移的坐标添加到车道线起点来找到其对应的车道。

2.2 可变形建模

  由于卷积运算的固定网格样采样范围,传统的CNN固有地局限于对不规则结构进行建模。为了克服这一限制,Dai等人[3]提出了可变形卷积来自适应地聚合局部区域内的信息。与标准卷积相比,在采样期间,在每个空间位置添加通过额外卷积获得的2D偏移,以实现采样网格的自由变形。通过学习的偏移量,根据目标的随机尺度和形状自适应地调整卷积的感受野和采样位置。可变形建模的精神已应用于许多任务,如目标检测[30,34]、目标跟踪[33]和视频理解[2,29,31]。RepPoints[30]将目标建模为一组点,并使用可变形卷积预测这些点到目标中心的偏移。这种可变形目标表示为目标检测以及自适应语义特征提取提供了精确的几何定位。Ying等人[31]提出了可变形三维卷积来探索时空信息,并实现视频超分辨率的自适应运动理解。与这些方法不同的是,我们的LFA模块适应车道线的长结构,并通过车道感知可变形卷积将特征聚合的范围限制在每条车道上的相邻点。

3. 方法

  我们提出的全局关联网络(GANet)的总体架构如图2所示。给定一个前视图像作为输入,采用CNN主干和FPN[12]颈部来提取输入图像的多层次视觉表示。为了更好地进行特征学习,在主干和颈部之间进一步插入了自注意力层[27],以获得丰富的上下文信息。在解码器中,利用关键点头和偏移头分别生成置信图和偏移图。两个头都由完全卷积层组成。我们在关键点头部之前进一步设计了一个车道感知特征聚合器模块,以增强相邻关键点之间的局部相关性,从而有助于生成连续的车道线。对于每个车道实例,我们首先通过在偏移图上选择值小于1的点来获得其起点作为簇质心。然后,使用置信图和偏移图的组合,将属于同一车道的关键点聚集在采样的起点周围,以构建完整的车道线。

在这里插入图片描述

图2. GANet的整体架构。给定一个前视图像作为输入,使用CNN主干,然后是自注意力层(SA)和FPN颈部来提取多尺度视觉特征。在解码器中,关键点头部和偏移头部分别用于生成置信度图和偏移图,然后将其组合以将关键点聚类为若干组,每组指示车道线实例。我们的LFA模块在关键点头之前应用,以更好地捕捉车道线上的局部上下文,用于关键点估计。

3.1 全局关键点关联

3.1.1 关键点估算

给定输入图像 I ∈ R H × W × 3 I∈\mathbb{R}^{H×W×3} IRH×W×3,我们的GANet的目标是预测车道的集合 L = { l 1 , l 2 , … , l N } L=\{l_1,l_2,…,l_N\} L={l1,l2,,lN},其中 N N N是车道的总数,每条车道线用 K K K个采样关键点表示为:

在这里插入图片描述

其中 p i j = ( x i j , y i j ) p^j_i=(x^j_i,y_i^j) pij(xij,yij)表示第 i i i个车道上的第 j j j个关键点的坐标。为了估计所有的关键点,我们开发了一个关键点头来产生置信度图 Y ^ ∈ R H r × W r \hat{Y}∈\mathbb{R}^{\frac{H}{r}×\frac{W}{r}} Y^RrH×rW,其中 r r r是输出步幅。置信度图表示每个位置成为车道上关键点的概率。如图2(a)所示,越亮的位置表示概率越高。

  在训练阶段,我们对每条车道线上的 K K K个关键点进行采样,作为真值关键点,然后使用非归一化高斯核 Y y x = e x p ( − ( x − x ~ ) 2 + ( y − y ~ ) 2 2 σ 2 ) Y_{yx}=exp(−\frac{(x−\tilde{x})^2+(y−\tilde{y})^2}{2σ^2}) Yyx=exp(2σ2(xx~)2+(yy~)2)将它们全部分解到置信图 Y ∈ R H r × W r Y∈\mathbb{R}^{\frac{H}{r}×\frac{W}{r}} YRrH×rW上,其中 x ~ \tilde{x} x~ y ~ \tilde{y} y~表示每个关键点的坐标,标准偏差 σ σ σ取决于输入的规模。如果两个高斯映射之间有重叠,我们取它们之间的元素最大值。

  我们采用罚减焦点损失[13]来处理关键点区域和非关键点区域之间的不平衡,如下所示:

在这里插入图片描述

其中 α α α β β β是焦点损失的超参数, H ′ × W ′ H^′×W^′ H×W表示 H r × W r \frac{H}{r}×\frac{W}{r} rH×rW。下标 y x yx yx表示获得坐标 ( x , y ) (x,y) (x,y)处的值。

  由于输出步幅 r r r,输入图像的点 ( x i j , y i j ) (x^j_i,y_i^j) (xij,yij)被映射到位置 ( ⌊ x i j r ⌋ , ⌊ y i j r ⌋ ) (⌊\frac{x^j_i}{r}⌋,⌊\frac{y^j_i}{r}⌋) (⌊rxij,ryij⌋),这可能导致性能下降。为了解决这种量化误差,我们还预测了补偿映射 δ ^ y x \hat{δ}_{yx} δ^yx,并仅将L1损失应用于关键点位置:

在这里插入图片描述

其中 δ y x = ( x i j r − ⌊ x i j r ⌋ , y i j r − ⌊ y i j r ⌋ ) δ_{yx}=(\frac{x^j_i}{r}-⌊\frac{x^j_i}{r}⌋,\frac{y^j_i}{r}-⌊\frac{y^j_i}{r}⌋) δyx=(rxijrxij,ryijryij⌋)表示量化补偿图的真值。为了简单起见,图2中没有显示这一部分。

3.1.2 起点回归

为了区分不同的车道线,我们建议使用起点来唯一地表示每个车道实例,因为其稳定性和彼此之间的最大裕度。我们不是直接回归起点的绝对坐标 ( s x i , s y i ) (sx_i,sy_i) (sxi,syi),而是回归每个关键点到它的偏移量,可以定义为:

在这里插入图片描述

  因此,我们可以生成形状为 H r × W r × C \frac{H}{r}×\frac{W}{r}×C rH×rW×C的真值偏移图 O y x O_{yx} Oyx。特别地,下标yx表示位置 ( x i j , y i j ) (x^j_i,y_i^j) (xij,yij)上的值,该值等于 ( ∆ x i j , ∆ y i j ) (∆x^j_i,∆y_i^j) (xij,yij),而其他位置具有零值。C=2分别包含x方向和y方向的偏移。

  为了估计偏移图 O ^ y x \hat{O}_{yx} O^yx,我们引入了一个偏移头,如图2所示。类似地,L1损失用于约束偏移图,如下所示:

在这里插入图片描述

监督仅适用于关键点位置,其余位置被忽略。

在这里插入图片描述

图3. 车道构建示意图。(a) 从置信度图中选择有效的关键点。以 ( x , y ) (x,y) (x,y)为例。(b) 首先对起始点 ( s x , s y ) (sx,sy) (sx,sy)(蓝点)进行采样。其余关键点指向具有预测偏移量 ( δ x , δ y ) (δx,δy) (δx,δy)的起点,并估计起点的坐标为 ( s x ′ , s y ′ ) = ( x , y ) + ( δ x , δ y ) (sx^′,sy^′)=(x,y)+(δx,δy) (sx,sy)=(x,y)+(δx,δy)(空心点)。(c) 指向起点(sx,sy)附近的关键点被分组为整个车道。

3.1.3 车道构建

车道构建的管道如图3所示,其中包括获得所有可能的车道点的位置,然后将它们分组到不同的车道实例中。我们首先在关键点置信度图 Y ^ \hat{Y} Y^上应用1×3最大池化层,以选择水平局部区域内的最大响应点作为有效关键点,如图3(a)所示。然后,我们将它们分组,将每条车道描述为关键点的有序列表,如下所示:

在这里插入图片描述

其中 ( s x , s y ) (sx,sy) (sx,sy)表示车道的起点, ( x j , y j ) (x^j,y^j) (xj,yj) j ∈ [ 2 , K ] j∈[2,K] j[2,K]是随后的关键点。

  为了获得每条车道的起点,我们在偏移图上选择值小于1的关键点作为候选起点。由于在同一局部区域内可能存在多个与上述标准匹配的关键点,因此选择该区域的几何中心点以确保唯一性。通过这种方式,预先确定所有车道的实例及其起点。

  然后,我们根据关键点和相应起点之间的估计偏移量,将其余关键点与其所属车道相关联,如图3(b)所示。每个关键点估计车道线起点的坐标如下:

在这里插入图片描述

其中 ( x , y ) (x,y) (x,y)是观测关键点的坐标, ( δ x , δ y ) = O y x (δx,δy)=O_{yx} (δx,δy)=Oyx表示第3.1.2节中获得的相应偏移。只有当 ( s x ′ , s y ′ ) (sx^′,sy^′) (sx,sy) ( s x , s y ) (sx,sy) (sx,sy)之间的距离小于预定义阈值 θ d i s θ_{dis} θdis时,关键点 ( x , y ) (x,y) (x,y)才与第 i i i个车道相关联。如图3(c)所示,将指向同一起点附近的关键点分组,以生成整个车道。上述过程是通过矩阵运算完成的,以确保并行关键点关联。

3.2 车道感知特征聚合器

  传统的2D卷积在固定的网格状区域内对特征进行采样,这不适合处理车道线的细长形状。受Dai等人[3]的启发,我们提出了一种车道感知特征聚合器(LFA)模块,用于自适应地从车道上的相邻点收集信息,以增强每个关键点的局部特征表示。我们的LFA模块的图示如图4所示。以一个特定的关键点为例,我们首先使用卷积层来预测它与其同一车道上被包围的M个关键点之间的偏移,如下所示:

在这里插入图片描述

其中, p i p_i pi表示第 i i i个关键点的坐标, F ( p i ) F(p_i) F(pi)表示第 i i i次关键点的特征表示, ∆ P i = { ∆ p i m ∣ m = 1 , … , M } ∈ R 2 M ∆P_i=\{∆p^m_i|m=1,…,M\}∈\mathbb{R}^{2M} Pi={pimm=1,,M}R2M表示预测偏移。然后,将相邻点的特征与可变形卷积相集成,以将第 i i i个关键点的上下文聚合为:

在这里插入图片描述

其中 w m , m = 1 , . . . , M w_m,m=1,...,M wm,m=1,...,M是卷积的权重, ( ⋅ ) (·) ()表示乘法。

在这里插入图片描述

图4. LFA模块示意图。红点表示观察到的关键点。我们首先预测红点及其相邻关键点(蓝色)之间的偏移,然后收集这些关键点的特征以增强红点的上下文。

  为了增强LFA学习车道线局部形状的能力,我们进一步引入了一种辅助损失来监督偏移 ∆ P i ∆P_i Pi。我们将第 i i i个关键点和相应车道线上的关键点之间偏移的真值表示为 ∆ G i = { ∆ g i k ∣ k = 1 , … , K } ∆G_i=\{∆g_i^k|k=1,…,K\} Gi={gikk=1,,K},这是用 ∆ g i k = g i k − p i ∆g_i^k=g_i^k−p_i gik=gikpi计算的,其中 g i k g_i^k gik是与第 i i i个关键点在同一车道线上的第 k k k个关键点的真值坐标。

  如图5所示,需要在 ∆ p i ∆p_i pi ∆ g i ∆g_i gi之间建立匹配。我们搜索具有最低匹配成本的赋值 σ σ σ

在这里插入图片描述

式中, L m a t c h = L 2 ( ∆ p i m , ∆ g i σ ( m ) ) \mathcal{L}_{match}=L_2(∆p^m_i,∆g_i^{σ(m)}) Lmatch=L2(pim,giσ(m))。根据先前的工作[1,23],采用匈牙利算法来有效地计算最优分配。然后应用SmoothL1损失来监督相邻关键点的预测:

在这里插入图片描述

其中K表示每条车道线上的关键点的数量,N表示车道线的数量,M表示采样的相邻关键点的数目。

  总损失函数是不同损失与相应系数的组合:

在这里插入图片描述

在这里插入图片描述

图5. 预测点与其真值之间的匹配说明。红点是观察到的关键点。蓝点是相邻关键点的预测位置。绿点是车道线上相邻关键点的真值位置。

4. 实验

  在本节中,我们首先介绍我们的方法的实验设置。下一小节将讨论每个数据集的结果。每个模块的消融实验在最后一小节中介绍。

4.1 实验设置

4.1.1 数据集和评估指标

我们在两个流行的车道检测基准上进行了实验,包括CULane[18]和TuSimple[26]。

  CULane:CULane数据集包含88880张训练图像和34680张测试图像,包括城市和高速公路场景。测试图像分为9种不同的场景。F1指标是基于IoU的唯一评估指标。IoU大于0.5的预测车道被判断为真阳性(TP),否则为假阳性(FP)或假阴性(FN)。F1指标被定义为精度和召回率的谐波平均值。

  TuSimple:TuSimple是一个真实的高速公路数据集,由3626张用于训练的图像和2782张用于测试的图像组成。TuSimple数据集的主要评估指标是准确性,其公式如下:

在这里插入图片描述

其中 C c l i p C_{clip} Cclip是模型正确预测的点数, S c l i p S_{clip} Sclip是剪辑(或图像)中的点数的总数。预测点只有在距真值点20个像素以内时才被认为是正确的。准确度大于85%的预测车道被视为真阳性。我们还报告了以下实验中的F1分数。

在这里插入图片描述

表1. GANet不同版本的详细信息。

4.1.2 实施细节

我们选择ResNet-18、ResNet-34和ResNet-101[5]作为主干,形成三个不同版本的GANet,分别称为GANet-S、GANet-M和GANet-L。每个版本的详细信息如表1所示。在训练和测试阶段,我们首先将输入图像调整为800×320。LFA中采样点的数量被设置为M=9。损失权重设置为 λ p o i n t = 1.0 λ_{point}=1.0 λpoint=1.0 λ q u a n t = 1.0 λ_{quant}=1.0 λquant=1.0 λ o f f s e t = 0.5 λ_{offset}=0.5 λoffset=0.5 λ a u x = 1.0 λ_{aux}=1.0 λaux=1.0。方程2中的超参数α和β分别设置为2和4。对于优化,我们使用Adam优化器和poly学习率衰减,初始学习率为0.001。我们分别为Tusimple和CULane训练了300和40个时期,每个GPU的批量大小为32。数据增强应用于训练阶段,包括随机缩放、裁剪、水平翻转、随机旋转和颜色抖动。在测试阶段,我们将关键点的阈值设置为0.4,将关键点关联的 θ d i s θ_{dis} θdis设置为4。训练和测试均在Tesla-V100 GPU上进行。

4.2 定量结果

4.2.1 CULane结果

CULane测试集的结果如表2所示。我们的GANet-L在CULane数据集上以79.63%的F1成绩和63 FPS的帧速率获得了最先进的结果,这超过了LaneATT-ResNet122等类似规模的模型,在性能和速度方面都有很大的优势。与另一种基于关键点的方法FOLLane ERF[21]相比,我们的GANet-S实现了78.79%F1分数的可比性能,但运行速度快3.8倍,这表明了性能和效率之间的优越权衡,并证明了我们的全局关联公式的速度优势。此外,我们的方法在六种场景中获得了最高的F1分数,尤其是在曲线场景中。在这种情况下,我们的GANet-L实现了77.37%,并且优于之前最先进的方法ERF-E2E[32],超过5%,这表明我们的方法在描述复杂车道线形方面的优越性。

4.2.2 TuSimple的结果

TuSimple测试集的比较结果如表4所示。我们的GANet-S优于所有其他方法,在高FPS的情况下获得了97.71%的F1最高分数。值得注意的是,GANet-S超过了速度相似、裕量高的UFast-ResNet34和LaneATT-ResNet34,显示了我们全球关联公式的巨大潜力。与LaneATT[25]类似,扩大模型容量并不一定会带来性能改进。这可能是因为Tusimple数据集的数量少,场景单一。结果已经饱和,较大的模型可能会导致过拟合问题。

在这里插入图片描述

表2. 与CULane测试集上最先进的方法进行比较。评估指标是IoU阈值为0.5的F1分数。对于交叉场景,只显示FP。

在这里插入图片描述

图6. 不带LFA的GANet的可视化结果。第一列是输入图像。第二列和第三列是没有LFA的预测点置信度图和车道线。第四列和第五列是具有LFA的预测点置信度图和车道线。最后一列是真值车道线

在这里插入图片描述

表3. LFA模块消融研究

4.2.3 消融研究

为了探索我们提出的LFA模块的特性,我们对CULane数据集进行了消融研究。以下所有实验都是基于GANet的小版本。结果如表3所示。第一行显示了没有LFA模块的基线方法。在第二行中,LFA模块集成到GANet中,没有辅助损耗。最后一行显示了我们整个GANet的结果。

  从前两行我们可以观察到,没有辅助损失的LFA模块对车道线检测是有效的,这是由于上下文的灵活集成。比较后两行,我们还可以发现辅助损失对LFA模块至关重要,它可以引导LFA专注于车道线上的关键信息。可视化分析见第4.3节。

4.3 定性结果

  我们在图6中可视化了不含LFA的定性结果。第2列和第4列相应地是没有和有LFA的置信图的可视化。如第一行的结果所示,即使在车辆堵塞的情况下,LFA模块也会做出正确的预测,因为预测的车道点相互增强。根据第二行和第三行的结果,还可以得出结论,LFA模块能够抑制可能由全局注意力引入的背景噪声。

  为了直观地研究LFA模块的属性,我们在图7中可视化了预测的特征聚合点。第一行显示了常见的直车道情况。通过添加辅助损失,LFA模块可以预测车道线周围的聚集点。同时,预测的聚合点是不规则的,没有辅助损失。最后两行显示了曲线车道情况下的聚合点。结果表明,LFA模块在理解车道线的局部结构方面是稳健的。该特性有助于增强车道线特征和抑制背景噪声。

在这里插入图片描述

表4. 在TuSimple测试集上与最先进的方法进行比较。

在这里插入图片描述

图7. 无辅助损耗LFA的可视化结果。红点是观察点。绿色点是预测的聚合点。浅蓝色点是车道线上的真值点。

5. 结论与讨论

  在本文中,我们提出了一个全局关联网络(GANet)来从一个新的角度来表述车道检测问题,其中每个关键点直接回归到车道线的起点,而不是逐点扩展。关键点与其所属车道线的关联是通过全局预测其与车道相应起点的偏移量来进行的,这大大提高了有效性。我们进一步提出了一种车道感知特征聚合器(LFA)来自适应地捕获相邻关键点之间的局部相关性,以补充局部信息。实验结果表明,我们的GANet以更高的速度优于以前的方法。

  限制。我们的方法的局限性在于,当输出步幅设置为1时,由于偏移的绝对值大,到起点的偏移可能变得难以回归。未来,我们希望通过对多个级别的偏移量进行回归来解决这个问题,以减轻回归的难度。

6. 鸣谢

  本研究得到了国家自然科学基金(6202207862121002)、国防基础科学研究计划(JCKY2020903B002)和SenseTime集团有限公司的部分资助。

References

[1] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020. 5
[2] Jingwen Chen, Yingwei Pan, Yehao Li, Ting Yao, Hongyang Chao, and Tao Mei. Temporal deformable convolutional encoder-decoder networks for video captioning. In AAAI, 2019. 3
[3] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017. 2, 3, 5
[4] Mohsen Ghafoorian, Cedric Nugteren, N´ora Baka, Olaf Booij, and Michael Hofmann. El-gan: Embedding loss driven generative adversarial networks for lane detection. In Proceedings of the European Conference on Computer Vision (ECCV) Workshops, 2018. 8
[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. 6
[6] Yuenan Hou, Zheng Ma, Chunxiao Liu, and Chen Change Loy. Learning lightweight lane detection CNNS by self attention distillation. ICCV, 2019. 2
[7] Yuenan Hou, Zheng Ma, Chunxiao Liu, and Chen Change Loy. Learning lightweight lane detection cnns by self attention distillation. In ICCV, 2019. 7, 8
[8] Seokwoo Jung, Sungha Choi, Mohammad Azam Khan, and Jaegul Choo. Towards lightweight lane detection by optimizing spatial embedding. ECCVW, 2020. 2
[9] Yeongmin Ko, Younkwan Lee, Shoaib Azam, Farzeen Munir, Moongu Jeon, and Witold Pedrycz. Key Points Estimation and Point Instance Segmentation Approach for Lane Detection. IEEE Transactions on Intelligent Transportation Systems, 2021. 3
[10] Xiang Li, Jun Li, Xiaolin Hu, and Jian Yang. Line-cnn: End-to-end traffic line detection with line proposal unit. IEEE Transactions on Intelligent Transportation Systems, 2019. 1, 3
[11] Xiang Li, Jun Li, Xiaolin Hu, and Jian Yang. Line-cnn: Endto-end traffic line detection with line proposal unit. IEEE Transactions on Intelligent Transportation Systems, 2019. 8
[12] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 3
[13] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. In ICCV, 2017. 4
[14] Lizhe Liu, Xiaohao Chen, Siyu Zhu, and Ping Tan. Cond-lanenet: A top-to-down lane detection framework based on conditional convolution. In ICCV, 2021. 3
[15] Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane shape prediction with transformers. In WACV, 2021. 8
[16] Davy Neven, Bert De Brabandere, Stamatios Georgoulis, Marc Proesmans, and Luc Van Gool. Towards End-to-End Lane Detection: An Instance Segmentation Approach. IEEE Intelligent Vehicles Symposium, Proceedings, 2018. 2
[17] Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hour-glass networks for human pose estimation. In ECCV, 2016. 3
[18] Xingang Pan, Jianping Shi, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Spatial as deep: Spatial cnn for traffic scene understanding. In AAAI, 2018. 2, 6, 7, 8
[19] Jonah Philion. Fastdraw: Addressing the long tail of lane detection by adapting a sequential prediction network. In CVPR, 2019. 7, 8
[20] Zequn Qin, Huanyu Wang, and Xi Li. Ultra fast structure-aware deep lane detection. In ECCV, 2020. 3, 7, 8
[21] Zhan Qu, Huan Jin, Yang Zhou, Zhen Yang, and Wei Zhang. Focus on local: Detecting lane marker from bottom up via key point. In CVPR, 2021. 2, 3, 6, 7, 8
[22] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 2015. 1
[23] Russell Stewart, Mykhaylo Andriluka, and Andrew Y Ng. End-to-end people detection in crowded scenes. In CVPR, 2016. 5
[24] Lucas Tabelini, Rodrigo Berriel, Thiago M Paixao, Claudine Badue, Alberto F De Souza, and Thiago Oliveira-Santos. Polylanenet: Lane estimation via deep polynomial regression. In ICPR, 2020. 8
[25] Lucas Tabelini, Rodrigo Berriel, Thiago M. Paixao, Claudine Badue, Alberto F. De Souza, and Thiago Oliveira-Santos. Keep your eyes on the lane: Real-time attention-guided lane detection. In CVPR, 2021. 1, 3, 7, 8
[26] TuSimple. Tusimple lane detection benchmark, 2017. https : / / github . com / TuSimple / tusimple -benchmark, 2017. 6
[27] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, 2017. 3
[28] Hang Xu, Shaoju Wang, Xinyue Cai, Wei Zhang, Xiaodan Liang, and Zhenguo Li. Curvelane-nas: Unifying lane-sensitive architecture search and adaptive point blending. In ECCV, 2020. 3, 7
[29] Xiangyu Xu, Muchen Li, and Wenxiu Sun. Learning deformable kernels for image and video denoising. arXiv preprint arXiv:1904.06903, 2019. 3
[30] Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, and Stephen Lin. Reppoints: Point set representation for object detection. In ICCV, 2019. 3
[31] Xinyi Ying, Longguang Wang, Yingqian Wang, Weidong Sheng, Wei An, and Yulan Guo. Deformable 3d convolution for video super-resolution. IEEE Signal Processing Letters, 2020. 3
[32] Seungwoo Yoo, Hee Seok Lee, Heesoo Myeong, Sungrack Yun, Hyoungwoo Park, Janghoon Cho, and Duck Hoon Kim. End-to-end lane marker detection via row-wise classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2020. 6, 7, 8
[33] Yuechen Yu, Yilei Xiong, Weilin Huang, and Matthew R Scott. Deformable siamese attention networks for visual object tracking. In CVPR, 2020. 3
[34] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2020. 3

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

77wpa

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值