Learning Lane Graph Representations for Motion Forecasting ——LaneGCN论文翻译

引言

我们提出了一个运动预测模型,该模型利用了一种新的结构化地图表示以及演员-地图交互。我们通过对原始地图进行矢量化来构建地图,而不是将原始地图中的数据进行矢量化。为了捕捉车道图的复杂拓扑结构和长距离依赖关系,我们提出了LaneGCN,它用多个邻接矩阵和沿车道扩展扩展图卷积。为了捕捉参与者和地图之间的复杂交互,我们开发了一个融合网络,该网络由四种类型的交互组成:参与者到车道、车道到车道、车道到参与者和参与者到参与者。在LaneGCN和演员地图交互的支持下,我们的模型能够预测准确而真实的多模态轨迹。
我们的方法在大规模Argoverse运动预测基准上显著优于最先进的方法。

1. 介绍

自动驾驶有可能彻底改变交通。为了安全运行,自动驾驶车辆(SDV)必须准确预测其他交通参与者的未来运动。高清地图(HD maps)为运动预测提供了非常有用的几何和语义信息,因为参与者的行为在很大程度上取决于地图拓扑。例如,当附近没有左转车道时,车辆不太可能左转。有效地利用高清地图对于运动预测模型产生合理和准确的轨迹至关重要。

该引用第一次尝试将高清地图作为启发法[42]。该方法首先将参与者与车道关联,然后根据地图拓扑生成所有候选运动路径。这样,预测结果就受到地图的约束。然而,这种方法无法捕捉罕见的不合规行为,这些行为虽然不太可能发生,但可能对安全至关重要。

最近的工作[38,14,29,3,23,7,5,6]使用机器学习从地图中学习语义表示。为了使高清地图能够由神经网络处理,地图数据被光栅化,以创建类似图像的光栅输入。地图拓扑隐式编码为线条、遮罩或颜色,然后由二维卷积神经网络(CNN)处理。这些学习到的地图特征为运动预测提供了有用的背景信息。然而,这些方法有两个缺点。其次,地图具有复杂拓扑结构的图形结构,二维卷积可能很难捕获这些特征。例如,相关的车道可能会在车道方向上延伸很长的距离。为了捕捉这些信息,感受野必须非常大,不仅覆盖预期区域,还覆盖车道外的大片区域。此外,相同或相反方向上的车道对具有完全不同的语义和依赖性,尽管两个车道对中的车道在空间上彼此接近。

在本文中,我们做了三个主要贡献:
(1) 我们不使用光栅化,而是从矢量化的地图数据中构造车道图,从而避免了信息丢失。
然后,我们提出了车道图卷积网络(LaneGCN),它有效地捕捉了车道图的复杂拓扑结构和长程依赖关系。
(2) 基于LaneGCN,我们的运动预测模型捕获了所有可能的演员-地图交互。特别是,我们将参与者和车道都表示为图中的节点,并使用一维CNN和LaneGCN分别提取参与者和车道节点的特征,然后利用空间注意和另一个LaneGCN来模拟四种类型的交互:参与者到车道、车道到车道、车道到参与者和参与者到参与者。我们让读者参考图1来了解我们的方法。
(3) 我们在大型Argoverse运动预测基准[9]上进行了实验,并显示出与最先进的技术相比有显著的改进。

在这里插入图片描述绳索
图1:我们从原始地图数据中构造了一个车道图,并使用LaneGCN提取地图特征。同时,ActorNet从观察到的过去轨迹中提取演员特征。然后,我们使用FusionNet对参与者自身和地图之间的交互进行建模,并预测未来的轨迹。

2. 相关工作

在本节中,我们将回顾有关地图表示、学习自治任务的地图表示以及图卷积网络的工作。

地图表示:[21]提出将车道边界参数化为一组多段线,并利用递归神经网络(RNN)从传感器数据中提取它们。[28]进一步将多段线表示扩展到更结构化的参数化。[22]提出将未知车道图参数化为有向无环图形模型(DAG),而不是对每条车道的几何结构进行建模,DAG更稳健,能够处理更复杂的拓扑结构,如分支。除了对几何图形进行建模外,[33,32]还在图形模型中对不同的车道类型进行编码,以便更好地利用它们的外观特征。[11] 使用无向图参数化道路布局,展示大规模城市道路拓扑的卓越性能。

自治学习地图表达: 基于栅格化的地图表示已被广泛使用。[14,12,10]将地图元素(道路、人行横道)栅格化为图层,并用不同颜色对车道方向进行编码。[3,8]在光栅化鸟瞰图像中对路线图、交通灯和限速进行编码。[23]在自上而下的空间网格中对静态实体、动态实体和语义地图信息的历史进行编码。HDNet[38]利用道路遮罩作为输入功能来提高目标检测性能。光栅化地图已与激光雷达点云融合,以执行联合感知和预测[29,4,27]以及端到端运动规划[40,35,41]。虽然光栅地图表示法很流行,但另一种方法是使用矢量化地图要素。[9] 使用沿中心线的距离和与中心线的偏移作为最近邻回归和LSTM[20]模型的输入。[34,1]使用1D CNN和LSTM对车道特征进行编码。相比之下,我们的模型从矢量化的地图数据中构建了一个车道图,并使用所提出的LaneGCN提取多尺度拓扑特征。在并行工作向量网[16]中,两个图网络分别用于提取参与者/车道特征和建模全局交互。VectorNet和LaneGCN之间有两个主要区别。首先,VectorNet使用具有无向全连接的普通图网络,而我们根据地图拓扑构建稀疏连接的车道图,并提出特定于任务的多类型和扩展图操作符。其次,VectorNet使用多段线级别的节点进行交互,而我们的LaneGCN使用多段线线段作为地图节点来获取更高的分辨率。请注意,在我们的方法中,不同多段线中的节点可以通过扩展连接相互交互。

图卷积网络: 图卷积网络(GCN)[36,19,15,26,13,30]已被证明对图表示学习是有效的。他们通过所谓的图卷积将网格上的二维卷积推广到任意图。与二维卷积不同,二维卷积作用于局部网格中的相邻节点,图卷积作用于由图结构定义的相邻节点,通常以邻接矩阵的形式描述。我们从GCNs中得到启发,并提出了LaneGCN,这是一个专门为车道图设计的版本。在我们的模型中,我们引入了多个邻接矩阵和多尺度扩展卷积,它们可以有效地捕捉车道图的复杂拓扑和长期依赖关系。

3. 轨迹预测的车道线表示

在本节中,我们提出了一种新的运动预测模型,该模型学习结构化地图表示,并融合交通参与者和高清地图的信息,同时考虑它们的交互作用。接下来,我们将解释构成我们模型的四个模块,即如何使用ActorNet计算参与者的特征,如何代表通过MapNet映射地图,如何融合来自参与者和FusionNet映射的信息,最后如何通过Prediction Header预测最终的运动预测轨迹。我们让读者参考图2以了解整体架构的说明。

在这里插入图片描述
图2(总体架构):我们的模型由四个模块组成。
(1) ActorNet接收过去的参与者轨迹作为输入,并使用1D卷积提取演员节点特征。
(2) MapNet从高清地图构建车道图,并使用LaneGCN精确显示车道节点特征。
(3) FusionNet是由4个交互块组成的堆栈。Actor to Lane块将参与者节点到车道节点的实时交通信息融合在一起。Lane to Lane块通过车道图传播信息并更新车道特征。Lane to Actor块将更新的地图信息从车道节点融合到参与者节点。Actor-to-Actor块执行参与者之间的交互。我们使用另一个LaneGCN表示车道间的街区,其他街区使用空间注意层。
(4) Prediction Header使用融合后的参与者特征生成多模态轨迹。

3.1 ActorNet:提取交通参与者表示

我们假设演员数据由场景中所有参与者过去观察到的轨迹组成。每个轨迹都表示为一系列位移{∆P−(T)−1), . . . , ∆P−1.∆p0},在这里∆Pti是时间步长t的二维位移−1 tot,这是轨迹大小。所有坐标都在鸟瞰视图(BEV)中定义,因为这是交通代理感兴趣的空间。对于尺寸小于T的轨迹,我们用零填充它们。我们添加一个二进制1×Tmask来指示每个步骤中的元素是否被填充,并将其与轨迹张量连接起来,从而得到一个大小为3×T的输入张量。虽然CNN和RNN都可以用于时间数据,但在这里,我们使用一维CNN来处理轨迹输入,因为它在提取多尺度特征方面的有效性和并行计算的效率。ActorNet的输出是一个时间特征映射,其元素在t=0时刻被用作参与者的特征。该网络有3组1维卷积。每组由2个剩余块组成[18]。然后,我们使用特征金字塔网络(FPN)[31]来融合多尺度特征,并应用另一个剩余块来获得输出张量。对于所有层,卷积内核大小为3,输出通道数为128。层归一化[2]和校正线性单元(ReLU)[17]在每次卷积后使用。

在这里插入图片描述
图3 从矢量化地图数据构建车道图。
左:对应的车道中心线、其前身、后续车道、左侧和右侧相邻车道分别用红色、橙色、蓝色、紫色和绿色线表示。每个中心线作为一系列BEV点(空心圆)给出。
右:带有示例车道节点的衍生车道图。感兴趣的车道节点、其前身、后继节点、左邻居和右邻居分别用红色、橙色、蓝色、紫色和绿色圆圈表示。更多信息请参见第3.2节。

3.2 MapNet:结构化地图表示的提取

我们使用一种新的深度模型,称为MapNet,从矢量化地图数据中学习结构化地图表示。这与以前的方法不同,以前的方法将地图编码为光栅图像,并应用二维卷积来提取特征。MapNet包括两个步骤:(1)从矢量化地图数据构建车道图;(2) 将我们的新LaneGCN应用于车道图以输出地图特征。

,Map Data: 在本文中,我们采用一种简单的矢量化地图数据形式来表示高清地图。具体来说,地图数据表示为一组车道及其连通性。每条车道包含一条中心线,即一系列二维BEV点,这些点沿车道方向排列(见图3,顶部)。对于直接可达的任何两条车道,给出了4种连接类型:predecessor,successor,left neighbour, and right neighbour.。给定一个车道,它的前身和后继车道都是可以直接往返的车道。左右邻里指的是在不违反交通规则的情况下可以直接到达的车道。这种简单的地图格式为运动预测提供了基本的几何和语义信息,因为车辆通常根据车道中心线及其连通性规划路线。

Lane Graph Construction: 我们不是将地图编码为光栅图像,而是从地图数据中导出车道图作为输入。在设计车道图时,我们用这些节点去取得一个好的分辨率。给定任何参与者位置,我们查询车道图并找到其最近的节点,以检索准确的地图信息。从这个角度来看,直接使用车道中心线作为节点不是最佳选择。

我们让读者参考图3,以了解车道图构造的示例。我们首先将车道节点定义为由中心线的任意两个连续点(图3中的灰色圆圈)形成的直线段。车道节点的位置是其两个端点的平均坐标。根据车道中心线之间的连接,我们还导出了车道节点的4种连接类型,即前置连接、后继连接、左邻连接和右邻连接。对于任何车道节点A,其前一个和后一个都被定义为相邻的车道节点,这些节点可以往返于不同的车道。请注意,可以从LbifBis车道的最后一个车道节点到达Lbela车道的第一个车道节点。左邻和右邻被定义为空间上最近的车道节点,分别通过左邻车道和右邻车道上的’2距离测量。我们用v表示车道节点∈RN×2,其中N是车道节点数和V的第i行是相对于第i个节点的BEV坐标。我们用4个邻接矩阵{Ai}i表示连通性∈{pre,suc,left,right}∈RN×N。
我们将ai,jk表示为ai的第j行和第k列中的元素。如果nodek是nodej的ani型邻居,则nAi,jk=1。

LaneConv Operator: 处理车道图的自然算子是图卷积[36]。最广泛使用的图卷积算子[26]定义为Y=LXW,其中x∈RN×f是节点特征,W∈RF×O是权重矩阵并且Y∈RN×Ois是输出。拉普拉斯矩阵图∈RN×n表示形式l=D−1/2(I+A)D−1/2,其中i、a和d分别是恒等矩阵、邻接矩阵和度矩阵。然而,在我们的例子中,这种普通的图卷积是低效的,原因如下。首先,目前尚不清楚哪种节点特征将保留车道图中的信息。其次,单个图拉普拉斯算子不能捕捉连接类型,即丢失连接类型所携带的方向信息。第三,在这种形式的图卷积中处理长程依赖关系并不容易,例如类似于扩张卷积。基于这些挑战,我们介绍了我们为车道图专门设计的新型算子,LaneGCN。

节点特征:我们首先定义车道节点的输入特征。每个车道节点对应于中心线的直线段。要对所有车道节点信息进行编码,我们需要同时考虑相应线段的形状(大小和方向)和位置(中心坐标)。我们将节点特征参数化如下:,

在这里插入图片描述
LaneConv:上面的节点功能只捕获线段的局部信息。为了在更大范围内聚合车道图的拓扑信息,我们设计了以下LaneConv算子
在这里插入图片描述
其中Ai和Wi分别是与第i种连接类型对应的邻接矩阵和权重矩阵。由于我们从车道的起点到终点对车道节点进行排序,因此可以通过将单位矩阵向右上角(非零超对角线)和左下角(非零次对角线)移动一步来获得Asuc和Apre矩阵。不难看出,我们的LaneConv建立在一般的图卷积之上,并对更多的几何(例如连接类型\方向)信息进行编码。如我们的实验所示,这比普通图卷积有所改进。

**LaneGCN:**在扩展的LaneConv算子的基础上,我们进一步提出了一个多尺度LaneConv算子,并用它来构建我们的LaneGCN。将等式(2)和(3)与多重膨胀相结合,我们得到了一个多尺度Lanecov算子,其迭代大小如下:
在这里插入图片描述
整个网络是由4个剩余LaneGCN块组成的,如图4所示,这是一个LaneConv(1,2,4,8,16,32)和一个线性层的堆栈,以及一个快捷方式。所有图层都有128个特征通道。层规范化[2]和ReLU[17]在每个LANECOV和线性层之后使用。
在这里插入图片描述
图4 :我们的LaneGCN是一个由4个多尺度LANECOV剩余块组成的堆栈,每个块由一个LANECOV(1,2,4,8,16,32)和一个带有剩余连接的线性层组成[18]。所有图层都有128个特征通道。

3.3 FusionNet

在这一部分中,我们提出了一个网络来融合ActorNet和MapNet分别给出的参与者和车道节点的信息。参与者的行为在很大程度上取决于环境,即其他参与者和地图。虽然之前的工作已经探索了参与者之间的交互,但是参与者与地图之间的交互,以及参与者之间的地图条件交互,受到的关注要少得多。在我们的模型中,我们使用空间注意和LaneGCN来捕捉一组完整的参与者地图交互(见图2)。

我们构建了一个由四个融合模块组成的堆栈,以捕获每个模块之间的所有信息流参与者和通道节点,即参与者到通道(A2L)、通道到通道(L2L)、通道到参与者(L2a)和参与者到参与者(A2A)。直观地说,A2L引入了实时交通信息和车道节点信息,如车道拥堵或使用情况。L2L更新车道节点,通过在车道地图上传播交通信息来获取特征。L2a fuse将实时交通信息更新地图功能并反馈给参与者。A2A处理参与者之间的交互并生成输出参与者特征,然后由预测报头将其用于运动预测。

我们使用另一个LaneGCN实现L2L,该LaneGCN的架构与MapNet中使用的架构相同(参见第3.2节)。下面我们将详细介绍其他三个模块。我们为A2L、L2A和A2A开发了一个空间注意层[37]。注意层以同样的方式应用于三个模块中的每一个。以A2L为例,给定一个actor 节点i,我们从其上下文中聚合特征车道线节点j如下:

在这里插入图片描述
根据第i个节点的特征,Wa权重矩阵,φ层归一化和ReLU的组成,以及∆ij=MLP(vj−vi),其中v表示节点位置。
上下文节点被定义为距离参与者节点2小于阈值的车道节点。A2L、L2A和A2A的阈值分别设置为7、6和100米。A2L、L2A和A2A中的每一个都有两个剩余块,它们由一堆拟议的注意层和一个线性层以及一个剩余连接组成。所有图层都有128个输出特征通道。

3.4 Prediction Header

将融合后的演员特征作为输入,多模态预测报头输出最终的运动预测。对于每个参与者,它都预测了未来可能的轨迹和他们的信心分数。头部有两个分支,一个用于预测每个模式的轨迹的回归分支和一个用于预测每个模式的置信度得分的分类分支。对于这些因素,我们在回归分支中应用剩余块和线性层来回归BEV坐标的序列:

在这里插入图片描述
其中pkm,i是第i个时间步长处第k个模式的第d个参与者的BEV坐标。对于分类分支,我们应用MLP 到pkm,T−pm,0获取距离嵌入。然后,我们将每个距离嵌入与演员特征连接起来,应用剩余块和线性层来输出自信分数Om,cls=(cm,0,cm,1,…,cm,K)−1)。

3.5 学习

由于所有模块都是可微的,因此我们可以以端到端的方式对模型进行训练。我们使用分类和回归损失之和来训练模型:
在这里插入图片描述
假设一个参与者的预测轨迹,我们发现一个正轨迹ˆk具有最小的最终位移误差,即在最后一个时间步预测和地面真值位置之间的欧氏距离。

对于分类,我们使用最大利润损失:
在这里插入图片描述
哪里是演员总数的差额。对于回归,我们对所有预测的时间步应用平滑的1损失:
在这里插入图片描述

4. 实验

4.2 结果

与最新技术的比较:我们将我们的模型与Argoverse运动预测排行榜上的四个顶级条目和两个官方基线进行了比较。我们在提交ECCV时提交结果(2020/03/15)。K=1和K=6的指标是minADE、minFDE和MR,K=6的指标是minFDE对排行榜的排名。如表1所示,我们的模型在所有指标上都显著优于所有其他模型。在比较的方法中,uulm mrm使用光栅化方法对输入数据进行编码[12,14]。它们用合成图像表示参与者状态、车道和可驾驶区域,然后由2D CNN处理。在这种方法中,映射拓扑和参与者-映射交互都是通过二维卷积隐式学习的。相比之下,我们的模型明确地学习结构化地图特征,并执行参与者地图融合。Jean和cxx使用1D CNN和/或LSTM对演员和通道进行编码,并利用注意力[37]融合这些功能。在他们的模型中,车道是独立编码的,因此不会捕获全局地图拓扑。此外,没有演员到车道和车道到车道的融合。相比之下,我们的模型使用LaneConv学习车道特征,LaneConv捕捉车道图的多尺度拓扑。

每个模块的重要性:在表2中,我们展示了使用ActorNet作为基线并逐步添加更多模块的结果。从结果中可以得出三个观察结果。首先,所有模块都提高了模型的性能,证明了LaneGCN和我们整体架构的有效性。

从演员到地图的信息流带来了有用的交通信息,这有利于运动预测性能,因为A2L和L2L的结合明显优于仅L2A。第三,A2L、L2L和L2A也促进了参与者之间的互动,这可以从将A2A添加到该组合(从第4行添加到第5行)与将A2A单独添加到ActorNet(从第1行添加到第2行)相比的较小收益中看出。直觉上,不同参与者的信息在车道图上传播,并导致有效的地图条件交互。

**车道图操作:**在表3中,我们展示了车道图操作符的研究结果。基线模型使用A2L、L2L和L2A的组合。我们从图卷积(GraphConv)开始,评估添加Laneconov块的每个组件(见图4)的效果,包括剩余块、多类型连接和膨胀。最后一行是我们模型中使用的LaneConv(表2的第四行)。所有这些组件都显著提高了性能。剩余块只增加了约7%的参数,但有效地促进了训练。多类型连接和扩展都显著提高了性能,这表明了Laneconov相对于普通图卷积的明显优势。

在这里插入图片描述

**定性结果:**在图5中,我们将我们的模型与其他方法在4个硬案例中进行定性比较。其他模型的结果改编自Argover运动预测比赛[1]的幻灯片。由于示例来自测试集,我们有用于运动预测的学习车道图表示13,无法访问标签,因此在我们的结果中,我们没有显示地面真实轨迹。第一行显示基线错过模式的情况。虽然其他方法无法捕捉右转预测,但我们的模型生成了一个很好地遵循右转中心线的模式。第二行显示了代理在前2秒等待执行无保护左转的情况。由于缺少演员运动历史,贴图对于模型生成合理的轨迹非常重要。
其他模型产生不同的轨迹,其中一些不符合交通规则。相比之下,我们的模型根据车道拓扑生成合理的轨迹。第三排显示了一辆汽车减速并在十字路口停车的情况。我们的模型产生了比基线减速更多的模式,所有模式都合理地遵循车道。第四排显示了极端加速度的情况。没有一个模型能够很好地捕捉到这种情况,可能是因为没有足够的信息来做出这种预测。

总的来说,这些结果表明LaneGCN可以有效地学习结构化地图表示,该模型使用结构化地图表示来预测真实的轨迹。改进我们模型的一个潜在方法是在车道图中加入更多地图信息。
目前,我们的模型使用中心线及其连通性。其他地图信息,例如交通信号灯和交通标志,为运动预测提供了有用的信息,图5中的第二和第三种情况很好地说明了这一点。为了考虑新的地图数据,我们的模型可以通过引入新的节点和连接来轻松扩展。我们将在未来的工作中探索这一方向。

在这里插入图片描述
图5。硬案例的定性结果。从上到下,这些困难的情况分别涉及错过右转模式、缺乏历史信息、极端减速和加速。有关更多信息,请参阅正文。

在这里插入图片描述
图6。详细的架构。可学习块以层类型、输出通道、跨步(线性层无跨步)的形式命名。上采样、求和和和连接分别表示双线性上采样、元素求和和和特征连接层。
Lanecov和注意力由等式(4)和(5)描述。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值