论文翻译:LaneRCNN Distributed Representations for Graph-Centric Motion Forecasting

论文翻译:LaneRCNN Distributed Representations for Graph-Centric Motion Forecasting

摘要

        预测动态参与者的未来行为是自动驾驶等许多机器人应用中的一项重要任务。这是极具挑战性的,因为参与者有潜在的意图,他们的轨迹由其他参与者、他们自己和地图之间的复杂互动决定。在本文中,我们提出了LaneRCNN,这是一个以图为中心的运动预测模型,它以分布式和结构化的方式捕捉演员到演员和演员到映射的关系。依靠一个专门设计的图编码器,我们学习了每个参与者的局部图表示(LaneRoI),以对其过去的运动和局部地图拓扑进行编码。我们进一步开发了一个交互模块,该模块允许在共享全局车道图中的局部图表示之间高效地传递消息。此外,我们基于车道图对输出轨迹进行参数化,这是一种更适合的预测参数化。我们在具有挑战性的Argoverse[1]运动预测基准上证明了我们的方法的有效性,并实现了最先进的性能。

一、介绍

        自动驾驶汽车需要以安全舒适的方式在动态环境中导航。这需要预测其他代理的未来运动,以便了解场景将如何演变。然而,根据每个代理的意图(例如,转弯、变道),代理未来的动作可能涉及复杂的动作,如让步、轻推和加速。更糟糕的是,自我机器人并不先验地知道这些意图,代理也可能在不久的将来根据附近代理的行为改变主意。因此,即使可以访问代理的轨迹历史,预测它们未来的运动也是非常具有挑战性的,并且仍然是一个悬而未决的问题。
        运动预测界一直在利用深度学习取得稳步进展。大多数最先进的模型都有类似的设计原理:使用单个特征向量来表征与演员相关的所有信息,如图1所示。他们通常首先将每个演员的过去运动和周围环境(例如,地图信息)编码为特征向量,该特征向量通过将2D光栅化提供给卷积神经网络(CNN)[2]、[3]、[4]、[5]、[6]、[7]来计算,或者直接使用递归神经网络(RNN)[8]、[9]、[10]、[11]、[12]来计算。接下来,他们在参与者之间交换信息以对交互进行建模,例如,通过全连接图神经网络(GNN)[13]、[14]、[4]、[9]、[10]或注意力机制[15]、[16]、[17]、[18]、[19]。最后,他们通过回归头[2]、[20]、[9]、[4]、[21]、[15]从每个演员的特征向量预测未来的运动。
        尽管这种范式已经显示出竞争性的结果,但它有三个主要缺点:1)用单个向量表示大空间区域的上下文信息是困难的,例如快速移动的行动者可能在五秒内穿越一百米,正如我们将在实验中展示的那样。2) 在参与者之间构建完全连接的交互图会忽略重要的映射结构[20]。例如,一辆未受保护的左转车辆应该让位于迎面而来的车辆,而两辆在相对车道上行驶的空间上相邻的车辆几乎不会相互作用。3) 回归标头没有明确地利用车道信息,这可以为准确的预测提供良好的归纳偏差。因此,基于回归的预测因子有时会预测道路外的射击轨迹,这是不现实的。
在这里插入图片描述
图1:流行的运动预测方法将行动者及其上下文信息编码为特征向量,并将其视为交互图中的节点。相比之下,我们提出了一种基于图的表示LaneRoI per actor,它是结构化的和有表现力的。在此基础上,我们以地图拓扑感知的方式对交互进行建模并预测运动。
        在本文中,我们提出了一种以图为中心的运动预测模型,即LaneRCNN,以解决上述问题。我们通过构建一个特定于参与者的图,称为Lane图感兴趣区域(LaneRoI),以及对过去的运动和地图语义进行编码的节点嵌入,以分布式和地图感知的方式来表示参与者及其上下文。特别地,我们根据与行动者相关的车道的拓扑构造LaneRoI,其中图上的节点对应于沿着这些车道的小空间区域,并且边表示区域之间的拓扑和空间关系。与使用单个向量对大区域的所有信息进行编码相比,我们的LaneRoI自然地保留了地图结构,并捕获了更多细粒度的信息,因为每个节点嵌入只需要表示小区域内的局部上下文。为了对交互进行建模,我们将所有参与者的LaneRoI嵌入到全局车道图中,然后传播此全局图上的信息。由于交互参与者的LaneRoI高度相关,这些参与者将共享全局图上的重叠区域,因此与不相关的参与者相比,在信息传播期间具有更频繁的通信。重要的是,在学习以地图为条件的交互时,这个过程既不需要任何启发式,也不做任何过于简单化的假设。然后,我们以完全卷积的方式预测每个LaneRoI上的未来运动,使得沿着车道的小区域(LaneRoI中的节点)可以用作锚并提供良好的先验。我们在大型Argoverse运动预测基准[1]上证明了我们的方法的有效性,并在通过官方排名指标进行评估时实现了最先进的性能。

在这里插入图片描述
图2:LaneRCNN概述。它首先用我们提出的LaneRoI表示对每个参与者进行编码,用编码器处理每个LaneRoI,然后用基于图的交互器对参与者之间的交互进行建模。最后,LaneRCNN以完全卷积的方式预测演员的最终位置,然后基于这些位置解码完整的轨迹。

二、相关工作

        a) 运动预测:传统方法使用基于人类知识的手工特征和规则来对运动预测中的交互和约束进行建模[22],[23],[24],[25],这些方法有时过于简单且不可扩展。最近,基于学习的方法采用了深度学习,并且显著优于传统方法。考虑到演员和场景,深度预测模型首先需要设计一种对信息进行编码的格式。为此,先前的方法[4]、[5]、[6]通常将演员的轨迹光栅化为鸟瞰图(BEV)图像,不同的通道代表不同的观察时间步长,然后应用CNN和RoI池[26]来提取演员特征。映射可以类似地进行编码[2]、[3]、[7]、[5]、[9]。然而,CNN的方形感受野可能无法有效编码演员动作[20],演员动作通常是长曲线。此外,地图光栅化可能会丢失有用的信息,如车道拓扑。RNN是一种紧凑有效地编码行动者运动学信息[8]、[9]、[10]、[11]、[27]、[12]的替代方法。最近,VectorNet[10]和LaneGCN[20]将这种紧凑编码推广到映射表示。VectorNet将地图视为多段线的集合,并使用RNN对其进行编码,而LaneGCN则构建车道图并对其进行卷积。与所有这些工作不同的是,我们用统一的图形表示对参与者和地图进行编码,这更具结构性和功能。
        建模参与者之间的交互对于多智能体系统也是至关重要的。开创性的基于学习的工作设计了一种社会汇集机制[12],[27],以聚集来自附近参与者的信息。然而,这样的池操作可能会丢失特定于参与者的信息。为了解决这一问题,注意力机制[16]、[17]、[18]、[28]或基于GNN的方法[3]、[15]、[20]、[14]、[4]、[9]、[29]、[10]构建行动者交互图(通常与所有行动者或基于k近邻的行动者完全连接),并执行注意力或消息传递以更新行动者特征。社会卷积池[8]、[30]、[31]也得到了探索,它保持了参与者的空间分布。然而,这些工作大多没有明确考虑地图结构,这在很大程度上影响了现实中行动者之间的互动。
        为了生成预测轨迹,许多工作在条件变分自动编码器(CVAE)框架[32]、[33]、[9]、[4]、[29]下,或使用多头/模式回归器[20]、[34]、[19]、[35]、[36]对多模态期货进行采样。其他输出轨迹样本的离散集合[3]、[6]、[37]。最近,TNT[11]同时独立地设计了与我们类似的输出参数化,其中车道被用作预测的先验。除此之外,我们还提供了一种新颖的图表示和强大的体系结构,其性能显著优于他们的结果。
        b) 图神经网络:依赖于图卷积和消息传递等算子,图神经网络及其变体[38]、[39]、[40]、[41]、[42]、[43]、[44]将网格等规则图上的深度学习推广到具有不规则拓扑的图上,并在各种任务中取得了巨大成功[45]、[46]、[47]、[48]。我们从“自我图”的一般概念中获得灵感,并提出了LaneRoI,它是专门为车道图设计的,可以捕捉局部地图拓扑和演员的运动。此外,为了捕捉参与者之间的交互,我们进一步提出了一个交互模块,该模块可以在LaneRoI图之间有效地传递信息。

三、LaneRCNN

        我们的目标是预测场景中所有演员的未来动作,给定他们过去的动作和高清地图。与现有工作不同的是,我们用LaneRoI来表示行动者及其上下文,LaneRoI是一种特定于行动者的图表示,比文献中使用的单个特征向量更具结构性和表达性。基于这种表示,我们设计了LaneRCNN,这是一个以图形为中心的运动预测模型,它对上下文进行编码,对参与者之间的交互进行建模,并以地图拓扑感知的方式预测未来的运动。我们的模型概述如图2所示。在下文中,我们首先在第III-A节中介绍我们的问题公式。然后,我们在第III-B节中定义了LaneRoI表示。在第III-C节中,我们解释了LaneRCNN如何通过基于图的消息传递来处理特征和建模交互。最后,我们分别在第III-D节和第III-E节中展示了我们的地图感知轨迹解码器和学习。
A. 问题公式
        我们将第i个参与者的过去运动表示为在过去L个时间步长上编码中心位置的一组2D点,即 { ( x i − L , y i − L ) , . . . , ( x i − 1 , x i − 1 ) } {\{(x_i^{-L},y_i^{-L}),...,(x_i^{-1},x_i^{-1})\}} {(xiL,yiL),...,(xi1,xi1)},其中(x,y)是鸟瞰图(BEV)中的2D坐标。我们的目标是预测场景中所有演员的未来动作 { ( x i 1 , y i 1 ) , . . . , ( x i T , x i T ) ∣ i = 1 , . . . , N } {\{(x_i^{1},y_i^{1}),...,(x_i^{T},x_i^{T})|i=1,...,N\}} {(xi1,yi1),...,(xiT,xiT)i=1,...,N},其中T是我们的预测范围,N是参与者的数量。
        除了行动者过去的运动学信息外,地图在运动预测中也发挥着重要作用,因为(i)行动者通常遵循车道,(ii)地图结构决定通行权,这反过来又影响行动者之间的互动。正如自动驾驶中的常见做法一样,我们假设高清地图是可访问的,其中包含车道和相关的语义属性,例如红绿灯信息。每条车道由许多连续的车道段 l i l_i li组成,这些车道段是沿着车道中心线的短路段。此外,车道段’i可以与同一车道或不同车道中的另一个段 l j l_j lj具有成对关系,例如 l i l_i li l j l_j lj的继任者或左邻居。

B. LaneROI表示
        a)图表示:表示演员及其上下文(地图)信息的一种直接方法是首先对其轨迹和地图进行光栅化,以形成2D BEV图像,然后在BEV[3]、[9]、[8]、[14]中应用以演员位置为中心的裁剪。然而,光栅化容易导致信息丢失,例如车道之间的连通性。此外,这是一种相当低效的表示,因为演员的运动通常在沿着车道的方向上展开,而不是在车道上展开。受[20]的启发,我们转而使用LaneRoI的图形表示来保持结构的紧凑性。对于场景中的每个参与者i,我们首先检索该参与者在预测视界T中可能到达的所有相关车道,以及来自观测到的历史视界L的车道。然后将车道转换为有向图 G i = { ν , { ε s u c , ε p r e , ε l e f t , ε r i g h t } } G_i=\{\nu,\{\varepsilon_{suc},\varepsilon_{pre},\varepsilon_{left},\varepsilon_{right}\}\} Gi={ν,{εsuc,εpre,εleft,εright}},其中每个节点 v ∈ ν v\in\nu vν表示这些车道内的车道段。车道拓扑由不同类型的边 ε r \varepsilon_r εr表示,编码以下关系:前一个、后一个、左邻居和右邻居。如果对应的车道段 l i l_i li, l j l_j lj具有关系 r r r,则两个节点通过边 e ∈ ε r e\in\varepsilon_r eεr连接,例如,车道段 l i l_i li是车道段 l j l_j lj的后继。在下文中,我们将交替使用术语“节点”和术语“车道段”。
在这里插入图片描述
图3:参与者i的LaneRoI是图Gi(按照车道拓扑结构构建:节点作为车道段,边缘作为路段连接)和节点嵌入Fi(编码参与者的运动,以及车道段的几何和语义财产)的集合。
        b)图输入编码:图形 G i G_i Gi仅表征第i个参与者周围的映射结构,而没有关于该参与者的太多信息。因此,我们用一组节点嵌入来扩充图,以构建我们的LaneRoI。回想一下, G i G_i Gi中的每个节点k都与车道段 l k l_k lk相关联。我们设计了它的嵌入 f k ∈ R C f_k\in\mathbb{R}^C fkRC来捕获 l k l_k lk的几何和语义信息,以及它与行动者的关系,其中 C C C表示特征维度。特别地,几何特征包括 l k l_k lk的中心位置、方向和曲率;语义特征包括指示 l k l_k lk是否是转弯车道、当前是否由红灯控制等的二元特征。为了将演员信息编码为 f k f_k fk,我们注意到演员的过去运动可以被识别为一组2D位移,定义连续时间步长之间的运动。因此,我们还将这些2D位移w.r.t. l k l_k lk的相对位置和方向包括到 f k f_k fk中, f k f_k fk以依赖于映射的方式对演员运动进行编码。这有利于理解参与者的行为,例如,地图上稳定偏离一条车道并接近相邻车道的轨迹很可能是变道。在实践中,对行动者信息进行钳制是很重要的,即,如果 l k l_k lk距离行动者超过5米,我们将嵌入 f k f_k fk中的行动者运动替换为零。我们假设这样的限制鼓励模型通过图上传递的消息来学习更好的表示。总之, ( G i , F i ) (G_i,F_i) (Gi,Fi)是行动者 i i i的LaneRoI,对运动预测的行动者特定信息进行编码,其中 F i ∈ R M i × C F_i\in\mathbb{R}^{M_i\times C} FiRMi×C是节点嵌入的集合 f k f_k fk M i M_i Mi G i G_i Gi中的节点数。

C. laneRCNN主干:由于LaneRoI具有不规则的图结构,我们不能应用标准的2D卷积来获得特征表示。在下文中,我们首先介绍车道卷积和池化算子(图4),它们在尊重图拓扑的同时,具有与2D对应算子类似的目的。基于这些操作符,我们描述了我们的LaneRCNN如何更新每个LaneRoI的功能,以及如何处理所有LaneRo(参与者)之间的交互。
        a)车道卷积算子:我们简要介绍了最初在[20]中提出的车道卷积。给定LaneRoI ( G i , F i ) (G_i,F_i) (Gi,Fi),车道卷积通过聚合其邻域(图中)的特征来更新特征 F i F_i Fi。形式上,我们使用 ε i ( r ) \varepsilon_i(r) εi(r)来表示关系 r r r G i G_i Gi的二元邻接矩阵,即,如果车道段 l p l_p lp l q l_q lq具有关系 r r r,则该矩阵中的 ( p , q ) (p,q) (p,q)项为1,否则为0。我们将关系 r r r下的n-hop(n跳)连通性表示为矩阵bool ( ε i ( r ) ⋅ ε i ( r ) ⋅ ⋅ ⋅ ε i ( r ) ) = (\varepsilon_i(r)\cdot\varepsilon_i(r)\cdot\cdot\cdot\varepsilon_i(r))= (εi(r)εi(r)εi(r))=bool ( ε i n ( r ) ) (\varepsilon_i^n(r)) (εin(r)),其中运算符bool将任何非零条目设置为1,否则他们将保持为0。输出节点特征更新如下,
F i ← ψ ( F i W + ∑ r , n b o o l ( ε i n ( r ) ) F i W n , r ) , (1) F_i\leftarrow\psi(F_iW+\sum\limits_{r,n}bool(\varepsilon_i^n(r))F_iW_{n,r}),\tag{1} Fiψ(FiW+r,nbool(εin(r))FiWn,r),(1)
其中 W W W W n , r W_{n,r} Wn,r都是可学习的参数, ψ ( ⋅ ) \psi(\cdot) ψ()是由LayerNorm[49]和ReLU[50]组成的非线性,并且求和是在所有可能的关系 r r r和跳数 n n n上。在实践中,我们使用 n ∈ { 1 , 2 , 4 , 8 , 16 , 32 } n\in\{1,2,4,8,16,32\} n{1,2,4,8,16,32}。这种多跳机制模拟了扩张卷积[51],并有效地扩大了感受野。
在这里插入图片描述
图4:车道卷积和车道池化算子的示意图,它们在考虑车道拓扑的同时,具有与其2D对应算子相似的功能。
        b)车道池运算符:我们使用可学习的车道池运算符函数。给定LaneRoI ( G i , F i ) (G_i,F_i) (Gi,Fi),调用 G i G_i Gi实际上对应于2D平面(场景)中跨越的车道数。对于平面中的任意2D向量v,车道池化算子从 F i F_i Fi中汇集或“插值”v的特征。注意,v可以是另一个图 G j G_j Gj中的车道段(在空间上接近 G i G_i Gi)。因此,车道池有助于在图之间来回传递信息,我们将在交互部分对此进行解释。为了生成向量v的特征 f v f_v fv,我们首先通过检查 G i G_i Gi中的车道段 l k l_k lk和向量v之间的中心距离是否小于某个阈值来检索 G i G_i Gi中它的“相邻节点”。一个简单的池策略就是简单地取那些 l k l_k lk的平均值。然而,这忽略了一个事实,即 l k l_k lk和v之间的关系可能会因其相对姿态而变化很大:垂直于v(冲突)的车道段和与v对齐的车道段具有非常不同的语义。受图/流形[45]、[52]、[20]上的广义卷积的启发,我们使用相对姿态和一些非线性来学习池函数。特别地,我们将 G i G_i Gi上的周围节点集表示为 N N N,将v和 l k l_k lk之间的相对姿态表示为 ∆ v k ∆vk vk,其中包括相对位置和方向。合并的特征 f v f_v fv然后可以被写为,
f v = M b ( ∑ k ∈ N M a ( [ f k , Δ v k ] ) ) , (2) f_v=M_b\Bigg(\sum\limits_{k\in{N}}M_a([f_k,\Delta_{vk}])\Bigg),\tag{2} fv=Mb(kNMa([fk,Δvk])),(2)
其中[…]表示串联,M是一个双层多层感知器(MLP)。
        c)LaneROI编码器:有了上面介绍的运算符,我们现在描述LaneRCNN如何处理每个LaneRoI的功能。给定一个场景,我们首先为每个参与者构建LaneRoI,并将其输入信息编码为节点嵌入,如第III-B节所述。然后,对于每个LaneRoI,我们应用四个车道卷积层,并获得更新的节点嵌入 F i F_i Fi。本质上,车道卷积层将信息从节点传播到其(多跳)连接的节点。堆叠更多的层可以构建更大的感受野,并具有更大的模型容量。然而,我们发现更深的网络在实践中并不一定能带来更好的性能,这可能是由于众所周知的学习长期依赖性的困难。为了解决这个问题,我们在LaneRoI上引入了一种图形快捷机制。图形快捷层可以在任何一层车道卷积后应用:我们将前一层的 F i F_i Fi输出聚合到与节点嵌入具有相同维度的全局嵌入中,然后将其添加到 G i G_i Gi中所有节点的嵌入中。回想一下,演员过去的运动是许多2D向量,即连续时间步长之间的运动。我们使用车道池来提取这些2D向量的特征。然后将具有下采样的1D CNN应用于这些特征,以构建最终的快捷方式嵌入。直观地说,在消息传递过程中,车道卷积可能会受到信息流减少的影响,而这样的快捷方式可以提供一条辅助且更短的路径来有效地在远处的节点之间进行通信。我们将证明,快捷方式显著提高了消融研究的性能。
        d)LaneROI交互器:到目前为止,我们的LaneRoI编码器为给定的参与者提供了良好的功能,但它缺乏对不同参与者之间的交互进行建模的能力,这对于多智能体系统中的运动预测非常重要。我们现在描述如何在LaneRoI表示下处理参与者交互。在使用LaneRoI编码器(共享权重)处理所有LaneRoI之后,我们构建包含场景中所有车道的全局车道图 G G G。它的节点嵌入是通过将所有LaneRoI投影到 G G G本身来构建的。然后,我们在 G G G上应用四个车道卷积层来执行消息传递。最后,我们将“全局节点”嵌入分配回每个LaneRoI。我们的设计动机是演员相互作用,因为它们共享相同的时空区域。类似地,在我们的模型中,所有LaneRoI共享相同的全局图 G G G,并在 G G G之后相互通信。
        特别地,假设我们有一组从前层编码的LaneRoI { ( G i , F i ) ∣ i = 1 , ⋅ ⋅ ⋅ , N } \{(G_i,F_i)|i=1,···,N\} {(Gi,Fi)i=1,⋅⋅⋅,N}和全局车道图 G G G。对于 G G G中的每个节点,我们使用车道池来构建其嵌入:从所有LaneRoI中检索其邻居作为 N N N,通过中心距离测量,然后应用等式2。这确保了每个全局节点都有可能与其交互的所有参与者的信息。分配步骤是一个相反的过程:对于 G i G_i Gi中的每个节点,找到其邻居,应用通道池,并将结果嵌入添加到原始 F i F_i Fi(用作跳过连接)。

D. 相对映射输出解码
        未来天生是多模态的,actor可以采取许多不同但可能的未来动作。幸运的是,不同的模式在很大程度上可以由行动者的不同目标来表征。在这里,目标意味着参与者在预测范围结束时的最终位置。请注意,参与者大多遵循车道结构,因此他们的目标通常接近车道段。因此,我们的模型可以基于LaneRoI特征,以完全卷积的方式预测参与者的最终目标。也就是说,我们在每个节点特征 f k f_k fk上应用2层MLP,并输出五个值,包括 l k l_k lk是距离目的地p最近的车道段的概率 p ( l k = p(l_k= p(lk=goal ) ) ),以及从 l k l_k lk到最终目的地 x g t − x k , y g t − y k , s i n ( θ g t − θ k ) , c o s ( θ g t − θ k ) x_{gt}-x_k,y_{gt}-y_k,sin(\theta_{gt}-\theta_k),cos(\theta_{gt}-\theta_k) xgtxk,ygtyk,sin(θgtθk),cos(θgtθk)的相对残差。
        根据前面步骤的结果,我们选择了排名前K的预测。对于每个预测的目标,我们使用t=0处的行动者的位置和方向以及目标处的行动者来插值贝塞尔二次曲线。然后,我们通过沿着该曲线展开恒定加速度运动学模型,在未来的每个时间步长对2D点进行采样。这些2D点形成一个轨迹,作为我们最终预测的初步建议。尽管这个参数化很简单,但它给我们带来了令人惊讶的好结果。
        我们的最后一步是使用可学习的头部来完善这些轨迹建议。与第III-C节中引入的快捷层类似,我们使用车道池,然后使用1D CNN来池化该轨迹的特征。最后,我们对每个时间步长的一对值进行解码,表示在该时间步长从轨迹建议到未来位置真实值的残差(以该轨迹建议的Frenet坐标编码)。
在这里插入图片描述
表I:Argoverse运动预测基准(测试集)。所有指标越低越好。未命中率(MR,K=6)是官方的排名指标。
E. 学习
        我们端到端地训练我们的模型,其中包含目标分类、目标回归和轨迹细化的损失。具体来说,我们使用
L = L c l s + α L r e g + β L r e f i n e , \mathcal L=\mathcal L_{cls}+\alpha \mathcal L_{reg}+\beta \mathcal L_{refine}, L=Lcls+αLreg+βLrefine,
其中α和β是超参数。当我们的模型预测每个节点的目标分类和回归结果时,我们简单地对具有在线硬示例挖掘[55]的 L c l s \mathcal L_{cls} Lcls采用二进制交叉熵损失,对 L r e g \mathcal L_{reg} Lreg采用smooth- l 1 l_1 l1损失,其中 L r e g \mathcal L_{reg} Lreg仅在正节点上评估,即距离最终位置真实值最近的车道段。 L r e f i n e \mathcal L_{refine} Lrefine也是一个smooth- l 1 l_1 l1损失,训练标签是简单匆忙生成的:将未来轨迹真实值投影到预测的轨迹建议中,并使用Frenet坐标值作为我们的回归目标。

四、实验评估

        我们评估了LaneRCNN在大规模且具有挑战性的Argoverse运动预测基准(Argoverse)[1]上的有效性。我们首先解释了我们的实验设置,然后将我们的方法与最先进的方法进行比较。然后,我们对LaneRCNN的每个模块进行消融研究,以验证我们的设计选择。最后,我们给出了一些定性的结果。
A. 实验设置
        a)数据集:Argoverse为运动预测任务提供了一个大规模的数据集,该数据集预测特定演员(标记为“代理”类型)的3秒未来运动,给定场景中所有演员过去2秒的观察结果,以10Hz采样。该数据集由在迈阿密和匹兹堡收集的超过3万个真实世界的驾驶序列组成。这些序列被进一步划分为训练集、验证集和测试集,没有任何地理重叠。此外,可以检索所有序列的HD地图信息。
        b)指标:我们遵循基准设置,使用未命中率(MR)、平均位移误差(ADE)和最终位移误差(FDE),这些在学术环境中也被广泛使用。MR被定义为在最后时间处没有一个预测具有小于2.0米 l 2 l_2 l2误差的数据的比率。ADE是所有未来时间步长的平均 l 2 l_2 l2误差,而FDE只计算最终时间步长。为了评估多模态预测,我们还采用了基准设置:预测每个参与者K=6个未来轨迹,并使用最接近真实值的轨迹评估min k _k kMR、min k _k kADE和min k _k kFDE。
        c)实验细节:我们在batch大小为64的训练集上训练我们的模型,并在30个epochs结束。我们使用Adam[56]优化器,学习率初始化为0.01,在第20个epochs衰减10。为了规范化数据,我们平移和旋转每个序列的坐标系,使原点位于“代理”行动者的当前位置(t=0),x轴与其当前方向对齐。在训练过程中,我们进一步在 ( − 2 3 π , 2 3 π ) (-\frac{2}{3}\pi,\frac{2}{3}\pi) (32π,32π)内应用随机旋转数据扩充。
在这里插入图片描述
表II:LaneRCNN不同模块上的消融。在验证集上报告度量。在上半部分中,我们检查了LaneRoI编码器,比较了每个演员的1D特征向量与LaneRoI表示以及快捷机制的不同设计。在下半部分,我们比较了不同的策略来建模交互,包括具有GNN/注意力的参与者之间的完全连接图,以及我们的。池化是指我们如何从GNN/注意力使用的每个LaneRoI中池化1D演员特征。灰色的行表示我们最终模型中使用的体系结构。
B. 与SOTA的对比
        我们将我们的方法与几种最先进的方法进行了比较,并在表I中总结了它们在测试集上的性能,包括:UULM-MRM[53](基于光栅化的模型,Argoverse预测挑战赛的联合获胜者)、WIMP[54](基于递归图的注意力模型)、VectorNet[10](基于车道拓扑的GNN模型)、LaneGCN[20],SAMMP[19](基于自我关注的模型,Argoverse预测挑战赛的联合获胜者)和TNT[11](建立在VectorNet上的基于目标的模型)。所有这些都在很大程度上超过了Argoverse基线(NN+Map和LSTM+Map),这表明这是一个极具竞争力的基准。尽管如此,我们的方法在官方排名指标(MR,K=6)以及大多数其他指标上显著优于以前的所有方法。

C. 消融研究
        a)LaneRoI编码器上的消融实验:我们首先在表II的上半部分显示了对我们的主要贡献之一,即LaneRoI的消融研究。第一行显示了传统表示的代表。具体而言,我们首先仅使用地图信息和4个车道卷积层来构建车道图节点的嵌入。然后,我们使用1D CNN(U-net风格)从演员运动学状态中提取运动特征向量,将其与每个图节点嵌入连接起来,并进行预测。从概念上讲,这与TNT[11]类似,只是我们修改了主干网络使得这个对比更公平。在第二行,我们显示了具有四个车道卷积层的LaneRoI表示的结果(没有捷径)。因此,唯一的区别是演员是用所有节点共享的单个运动向量编码,还是像我们一样以分布式和结构化的方式编码。如表所示,我们的LaneRoI在所有指标上都取得了类似或更好的结果,展现了其优势。请注意,就使用LaneRoI表示而言,这一行还不是我们的最佳结果,因为在输入编码期间(在输入节点嵌入处进行箝位),行动者信息仅暴露于一个小区域,并且如果没有快捷方式的帮助,就不能有效地传播到整个LaneRoI,我们将在下面展示。
        表II中的后续行比较了快捷机制的不同设计选择,特别是我们如何为每个LaneRoI汇集全局功能。“全局池”指的是平均池化LaneRoI中的所有节点嵌入,“中心池”指我们使用围绕参与者最后一次观察的节点和通道池化来池化LaneRoI中的功能。正如我们所看到的,尽管这两种方法可以将信息分散到LaneRoI中的每个节点(从而构建快捷方式),但它们几乎不能提高性能。相比之下,我们取得了显著的进步。这是因为我们沿着演员过去的轨迹汇集特征,这导致了更大的、演员运动特定的感受野。这里,×1和×2分别指每4个和2个通道卷积层具有1个快捷方式的编码器。这表明,堆叠更多的快捷方式会带来一些正在减少的好处。
        b)LaneRoI交互器上的消融:为了验证我们的地图感知交互模块的有效性,我们比较了基于参与者之间完全连接交互图的几种模型变体。具体来说,对于每个参与者,我们应用LaneRoI编码器来处理节点嵌入,然后通过全局平均池化或我们的快捷机制从LaneRoI池化特定于参与者的特征向量。然后将这些演员特征输入到变压器式[57]注意力模块或完全连接的GNN中。最后,我们将输出actor特征分别添加到LaneRoI中的节点,并使用我们的解码模块进行预测。因此,这些变体与我们的管道相同,唯一的区别是如何跨参与者进行沟通。为了尽可能公平地进行比较,注意力和GNN的层数和通道数与我们的LaneRoI交互器相同。
        如表II所示,所有基于交互的模型都优于未按预期考虑交互的模型(第1行)。此外,与注意力和GNN相比,我们的方法显著提高了性能。有趣的是,所有基于全连接交互图的模型都达到了类似的性能,这可能意味着这些骨干可能会使性能饱和(排行榜上的领先方法也表明了这一点)。我们还表明,简单地使用平均池将特征从LaneRoIs嵌入全局图并不能获得良好的性能,因为它忽略了局部结构。
在这里插入图片描述
图5:Argoverse价值的定性结果(从左到右):1)弯道2)变道3)十字路口4)超车。
        c) 解码器上的消融:我们的输出参数化明确利用了车道信息,从而简化了训练,如图6所示。我们将模型与基于回归的变体进行比较。特别是,我们使用相同的主干,并在每个LaneRoI上执行快捷层,以提取演员特定的特征向量。然后,我们构建一个多模态回归标头,并对未来的运动进行回归。我们可以看到,当只有少量数据可用时,我们的模型实现了不错的性能,而基于回归的模型需要更多的数据。这表明我们可以利用地图结构作为良好的先验并简化学习。

D. 定性结果
        图5显示了Argoverse验证集的定性结果。我们的方法通常很好地遵循了地图并且证明了良好的多模态预测。从左到右,我们显示1)当演员沿着弯曲的车道行驶时,我们预测具有不同速度的两种方向模式;2) 当它在直车道上时,我们的模型涵盖了变道的可能性;3) 当它接近十字路口时,我们的模型捕捉到了直行和右转模式,尤其是在右转速度较低的情况下,这在现实世界中很常见;4) 当有一个行动者挡住了道路时,我们预测的超车行为与实际情况完全匹配。此外,对于车道跟随模式,我们预测的速度要慢得多,这与这种情况一致,表明了我们交互建模的有效性。
在这里插入图片描述
图6:模型性能与训练数据量的对比。我们的输出参数化明确利用车道作为运动的先验,因此与直接回归2D平面上的未来运动相比,显著简化了学习。

五、结论

        在本文中,我们提出了LaneRCNN,一个以图为中心的运动预测模型。LaneRCNN依靠可学习的图算子,为每个参与者构建了一个基于分布式车道图的表示(LaneROI),以对其过去的运动和局部地图拓扑进行编码。此外,我们提出了一个交互模块,该模块可以有效地捕捉共享全局车道图中参与者之间的交互。最后,我们使用车道图对输出轨迹进行参数化,这有助于改进预测。我们证明了LaneRCNN在具有挑战性的Argoverse基准测试中实现了最先进的性能。这种方法的局限性之一是依赖于精确的姿态和最新的高清地图。我们计划研究扩展,以处理在线估计的不太准确的地图。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值