【多目标轨迹预测】Path-Aware Graph Attention for HD Maps in Motion Prediction(ICRL 2022)翻译

参考:

(31条消息) 【文献阅读】路径感知的图注意力做运动预测(Fang Da等人,ArXiv,ICRA 2022)_全部梭哈迟早暴富的博客-CSDN博客_lanegcn lanercnn

ICRA 2022丨Argoverse运动预测冠军,轻舟智航提出基于路径感知的图注意力模型 - 知乎 (zhihu.com)

论文链接:[2202.13772v1] Path-Aware Graph Attention for HD Maps in Motion Prediction (arxiv.org)

阅读总结:

关键词:图注意力模型

摘要:

        运动预测依靠HD地图,地图是图结构的。然而,与许多直接部署GNN的其他应用程序不同,HD地图是异质图,其中顶点(车道)由各种性质的边(车道-车道交互关系)连接,大多数基于图的模型没有设计为理解各种边类型,这些边类型为预测智能体如何行驶车道提供了关键线索。

        我们提出了路径感知图注意力(Path Aware Graph Attention),这是一种新的注意力架构,通过解析形成连接两个顶点的路径的边序列来推断两个顶点之间的注意力。我们的分析说明了所提出的注意力机制如何促进教学问题中的学习,其中现有的图形网络(如GCN)很难解决。

1. 简介

        一般高清地图往往会结构化成图,且是异质的,不同的边所包含的语义信息是不同的。传统的图结构模型,多用于社会网络分析,蛋白质的相互作用,总是会忽略边类型的多样,且更关注于顶点处的特征处理,顶点之间的关系往往只是“连接”或者“未连接”。而这对于编码道路图来说是不够的,道路之间不仅仅是连接或者未连接,还有是什么形式连接,如果用传统的图模型,可能会导致自动驾驶中的非法变道。        

        而处理异质图目前也有一些技术。例如,可以将每条边转换为顶点,并将新边添加到原始关联顶点,从而将异构图转换为更大但同质的二分图。类似地,可以直接为边缘配备特征以捕获相同的语义结构。然而,对于机器来说,理解这个结构并非易事。交通交互的复杂性不是来自两个相邻车道之间的交互类型的范围,而是来自将它们传播到不相邻但仍然交互的车道的复杂性,即来自车道之间的大量组合。这是因为在现实中,城市地区的车道结构有多种多样的组合;仅仅是一小组链接类型(如顺序和横向)的词汇就难以描述更细微的模式,如合并/分叉和双转弯(图1)。为了使地图构建变得易于处理和一致,HD地图构建者通常必须坚持一组小但定义明确的链接类型。因此,这些更高级的模式表现为超越 1-ring 邻域的组合结构,剖析这些非局部交互的任务留给了地图编码器模型。此外,人类驾驶员的行为通常表现出这些基本模式的高阶组合特有的适应性,这使得对整个车道交互的建模极具挑战性。

        图1给出了车道连通性图描述时可能不明确的几个示例。在左边的例子中,左转进入多车道道路。根据车速、道路曲率和交通情况,许多人类驾驶员会选择进入中间车道甚至最右侧车道,尽管在许多司法管辖区这是违法的。这种驾驶行为可以想象一条地图中不存在的车道来解释,也可以将其解释为进入后继车道的相邻车道,从而涉及两条车道之间的非局部相互作用,两条车道间的路径长度为2。中间的示例包含长合并和浅合并。在合并过程中,两条连接车道之间的关系从相邻车道转变为几乎一致的车道,这给车道相邻关系的标记带来了一个难题。此外,当图中的红色车辆接近合并终点时,左侧车道变更将不会进入合并对应的紧邻左侧相邻车道,而是进入左侧的下一车道。从车道图的角度来看,这似乎是红色车辆的车道与其左侧邻居的左侧邻居之间的相互作用,同样是长度为2的路径。右边的例子更加混乱,交叉口中间有几条车道紧紧地聚集在一起,拓扑上相隔更远的车道可能会相互作用。

        基于这些观察结果,我们认为HD地图车道图的有效编码器模型必须能够从非相邻车道对之间的链接来理解它们之间的相互作用,或者换句话说,能够从它们之间的路径或边缘序列推断顶点-顶点关注度。基于这一观点,本文的主要贡献是一种新的注意力结构,称为路径感知图注意力(PAGA)。顾名思义,两个顶点之间的注意门是从连接两个顶点的路径上的边缘特征序列(尤其是边缘类型)学习的,而不是从顶点特征本身学习的。

2.相关工作

A.Motion Prediction

        地图对于运动预测至关重要,地图的两种处理方法:栅格化和矢量化。

 a)栅格化:在BEV中使用较多,将周围环境表示为图像,使用计算机视觉技术进行处理。

        光栅化表示在捕捉智能体的空间上下文(如地图)方面也具有简单的优点[3]。这一研究线索的一个主要例子是ChauffurNet[4],它使用RNN来合成预测的轨迹。ChaufferNet将地图、导航信息和其他对象呈现在BEV中以感兴趣的智能体前方为中心的矩形区域中。路线图渲染为包含车道中心线、路缘等的RGB图像。MultiPath[3]依赖于基于这些上下文特征的锚分类和偏移回归来产生预测。许多工作采用相同的表示来编码地图,并将其与智能体运动和交互的矢量化表示相结合:[5] 在卷积上下文特征和矢量化智能体状态特征的基础上设计多假设FC预测头,CoverNet[6]动态生成锚轨迹并利用相似特征对其进行分类,多未来预测[7]和多代理张量融合[8]使用RNN对代理运动进行编码和解码,结合不同阶段的上下文特征。

 b)矢量化:另一方面,矢量化类别中的技术通过将地图视为图来关注地图的拓扑结构。与光栅图像相比,图形表示更紧凑,因此具有更好的效率。根据连通性定义,图形表示也可以很容易地描述复杂的交通语义,例如两条车道在空间上接近,但被中间带阻止相互作用的情况。此类别中值得注意的工作包括VectorNet[9],它将地图以及智能体运动表示为完整图的两级层次结构,并采用了完成掩蔽顶点的自我监督辅助任务,LaneGCN[10]将地图编码为异构有向图,并在其上训练由边缘类型参数化的GCN,以及后续的LaneRCNN[11],其构建了一个智能体图,以在地图图的顶部对交互进行建模。PAGA也属于这一类。

B.Graph Neural Networks and Attention

a)Graph attention :为了在GAT中模拟超出局部邻域的长距离交互,SPAGAN[26]计算感兴趣的顶点和沿着两者之间最短路径的特征的距离顶点之间的注意力。这可以看作是我们提出的PAGA的一种近似:随着交互变得不那么直接,因此与较长路径长度的相关性降低,最短路径是所有路径集合的零阶近似,由此计算路径感知图关注度。

3. 方法

A.Definitions

a) Graphs and models on a graph:给定一个有向图是顶点,表示边。目标是设计一种网络更利于从顶点的输入特征中提取输出特征,从而尽可能地捕获图的拓扑信息。PAGA不指定x的计算选择,as it is orthogonal to the discussion on attention。在图卷积框架中,通常使用前一层中y的完全连接层,但也可以使用其他函数[18]。

        这一定义适用于异形图,异形图只是顶点和边是异构的,或者换句话说,是不同类型的图。顶点和边缘类型中保存的语义信息通常表示为顶点和边缘特征;尽管大多数基于图的模型都直接对顶点特征进行操作,但大多数模型都不知道边缘类型和边缘特征的可变性,并且只考虑顶点对之间的二元连通性关系,潜在的标量边缘权重捕获了一些交互强度的概念。在处理异构边的语义时,需要精心设计的网络架构来尊重图的拓扑结构。

b) Attention:对于一个感兴趣的顶点,注意力机制会选择性的关注另外一个顶点(不一定要直接与u连接)。注意力值调节v上的特征对u上的结果的贡献程度:

c) GCN and GAT: 的选择,特别是它所依赖的特征,是注意力机制的特征。例如,在GCN[17]中,只是从阶矩阵D和相邻矩阵A(每个顶点都添加了一个自边)计算出的(重整化)拉普拉斯矩阵,而在GAT[24]中,的x(u)和x(v)的函数,其中是u的1-环邻域(1-ring neighborhood)。由于通常具有非常局部的支持以允许有效的实施,因此通常使用这种注意力结构的多层来扩大感受野。

d) Paths:   在异构图的情况下,可变类型的边携带有关所讨论顶点之间关系性质的基本信息。对于顶点对,长度为l的从u到v的(edge-)路径由给出,当时,满足,其中S和T是分别返回边的源顶点和目标顶点的运算符。可能有许多给定长度的路径连接u和v,它们共同描述了信息在图中两个顶点之间流动的路径。在编码HD地图的上下文中,这样的路径可以捕获一条车道中的交通如何移动到另一条车道,并且沿着路径的边缘类型序列是交通交互如何进行的完整描述符。

B. Path-Aware Graph Attention

     所提出的模型,路径感知图注意,将函数基于沿连接u和v的路径上的边缘特征

        其中是连接u到v的长度为l的所有路径的集合,是可学习的特征提取器函数,用于从沿长度为 l 的路径(例如神经网络)的边缘特征序列中产生关注值。λ 是一个控制路径长度的超参数:在一定长度以上,路径所代表的相互作用过于间接而不相关,包括它们不会改善结果,同时仍会导致更多的计算成本(因为通常随 l 增长)。这种带有l的衰减效应应该在学习的函数中自然出现,但也可以通过设置并使用

        图2: PAGA中边缘序列的计算图解。(A) 具有两种类型的边(描绘为红色和绿色)的异构图。(B) 连接左上角的u和右下角的 v 的路径经过一条绿色边和一条红色边。序列的边缘特征由LSTM编码以产生,即u和v之间的注意。(C)对于不同的v,有三条路径连接u和v,都有助于

        我们强调,这种注意力的表述能够实现传统GCN或GAT方法无法轻易实现的顶点交互模式。这将在第III-C节和IV-A节中进一步阐述。图3比较了几个相关框架与PAGA的结构。

        图3:从GraphSAGE(LSTM变体)、GCN、GAT和PAGA中的 u 邻域获得 y(u)的比较。GraphSAGE使用LSTM聚合(采样的)顶点邻域,而其他三个可以被解释为具有不同计算的注意力。

1) 边缘序列特征提取器的选择:路径感知图形注意机制的能力取决于的选择,是一个函数,它处理沿着路径的各个边缘的类型特征,以确定一个整体选通系数(overall gating coefficient),该系数通过该路径过滤v对u的影响。任何池化运算符(如max pool、avg pool)都可以用于聚合路径上的特征,但池化运算符的排列不变性意味着它们不会捕获路径上边缘排序的语义。这将是不希望的,例如在车道分叉处,其中后续车道的相邻车道不一定与相邻车道的后续车道相同。因此,置换敏感算子(permutation-sensitive operator),如递归神经网络(实际上我们使用LSTM)可能更好。当λ很小时,一个完全连接的层(其输入宽度与l成比例)也可以工作。

2) 基于路径的特征提取的有效实现(Efficient Implementation):从给定顶点u到长度l的可能路径的数量确实随着l呈指数增长,但在HD地图上的实际应用中,当图高度稀疏时,得到的支持(λ-环邻域 λ-ring neighborhood)仍然是V的一个非常小的子集,因此利用稀疏性是计算效率的必要条件。稀疏性可以通过将顶点邻接矩阵A存储在压缩的列/行存储格式中来实现,即作为{u,v}元组的列表,并围绕该格式构造图操作。

C、 PAGA背后的直觉(The Intuition Behind PAGA)

        本质上,PAGA通过试图捕捉信息在图中流动的方式来学习注意力,因为顶点正是通过这种流动来相互作用和影响。再次考虑图1中的中间示例,让我们分别将两条合流车道称为A和B,其中A是红色车辆的车道。如果红色车辆打算向左变道,它必须与“邻居的邻居”车道上的车辆进行协商,即B左侧的车道(我们称之为C车道)。因此,A与其直接邻居B和二级邻居C之间的关系是不寻常的:在这种情况下,二级邻居的行为类似于常规邻居车道,在那里人们会检查车道变换的安全性,而直接邻居的行为更像是当前车道,在这里人们会寻找前方车辆和障碍物。这对负责从图结构中发现这些高阶连接的地图编码器模型提出了挑战。连接两个顶点的每条路径都对应于两条车道相互作用的方式,如这个浅层合并示例所示,如果顶点a与顶点B相互作用,而顶点B又与顶点C相互作用,则不能递归地处理a和C之间的相互作用,因为它不一定是A和B之间或B和C之间相互作用的衰减版本:例如,为了评估A车道的变道安全性,我们应该100%关注C,0%关注B。这就是促使我们开发计算注意力的路径感知机制的直觉。正如第IV-A节中所研究的那样,一个简单的玩具问题与一个完全类似的图形对现有的技术(如GCN)来说是困难的,但对PAGA来说则不是。

4.Experiment

A. Didactic Problem: Learning a Skip Interaction

        与在计算机视觉中将大卷积核分解为多层小(3x3)卷积核的成功实践一样,大多数图卷积方法不考虑直接1环邻域(1- ring neighborhood)之外的顶点,而是依赖于堆叠层来推动接受场覆盖远距离交互。然而,我们认为这种分解可能会限制网络对远程交互的表达能力。如上所述,在某些情况下建模复杂的高阶连接需要以非递归方式编码交互的能力。在本节中,我们将描述一个简单的问题来说明这一现象。

        考虑由三个顶点和两条边组成的图(图4左侧)。定义函数作为顶点上的“特征”,另一个函数作为“标签”。任务是简单地学习将x映射到y的函数,给定y的指定结构。为反映图1中间示例中的情况,我们将y定义为。这相当于(1)中的以下注意

        换言之,我们希望学习一个模型,它将注意力完全集中在顶点a的顶点c上,而顶点b和c只专注于它们自己。注意,从a到c的注意力在拓扑上必须经过路径 a−b−c,但 y(b)必须不受影响。

        我们生成了4500个示例的数据集,其中b和c上具有随机x值(我们将x(a)设置为零,这没有任何影响),并训练了GCN和PAGA的简单实现,两者都具有隐藏状态大小1且没有非线性。消除非线性有助于减少运行中的随机性,结果应该仍然有意义。使用Adam优化器以0.01的学习率对网络进行了50个时期的y上的MSE损失训练,并在另外500个示例上评估了所得模型。 

        图4:左图:教学问题“跳过互动”中使用的图表。右:损失收敛,超过100次试验。

        图4右图显示了这两个模型在100次试验中的收敛结果。GCN总是无法收敛到零损失,最终损失平均为0.05,MSE接近0.1。PAGA的训练损失和评估MSE收敛到以下。

B、 Argorverse的实验评价(Experimental Evaluation on Argoverse)

        然后,我们在大型运动预测基准Argoverse运动预测数据集[27]上评估PAGA。数据集附带矢量化格式的详细高清地图,覆盖匹兹堡和迈阿密的两个城区。Argorverse数据集由超过200k个标记为10Hz的5秒长训练场景组成,任务是预测一个特别标记的物体(称为代理)在场景的最后3秒内的运动,给定其在前2秒内的运动和环境。基于诸如ADE(平均位移误差,即预测轨迹和地面真实点之间的欧几里德距离的平均值)和FDE(最终位移误差,并且通过度量(由预测器输出的K个猜测中最好的一个的ADE和FDE)来鼓励多模态预测。为了提高预测器对其输出模式中的不确定性的认识,Argorverse最近引入了度量,它们基于预测器输出的最佳猜测概率,在的基础上添加了惩罚项。

        在运动预测模型中,我们提出的路径感知图注意网络充当解析HD地图的模块,以向代理轨迹解码器提供指导。我们将PAGA模块插入LaneGCN[10]的框架中,作为基于图卷积的地图处理网络的替代品。LaneGCN的其他组件,如代理和地图之间的四向注意,以及轨迹编码器/解码器,不需要任何修改即可与PAGA地图编码网络一起工作。

        由于PAGA与图卷积的结构不同,我们在Argoverse上的实验中使用的一些超参数在LaneGCN中没有找到或被修改,如下所述。注意力门作为标准的多头注意力(8头)实施。我们使用λ为2,基于大多数激励示例(图1)涉及2-环中的路径相关交互的直觉。为了减少分支因子,当连接连续车道顶点时,我们只保留原始6个比例中的3个;通过PAGA的内置非局域相互作用,可以很容易地恢复丢失的感受野。我们在顶点特征中使用个通道,在边缘特征中使用个通道,我们用入射顶点的原始特征(位置和方向)来增强边缘特征。我们在LSTM模块的隐藏状态中使用64个通道。培训在Nvidia V100 GPU(16GB)上运行,服务器上使用Intel Xeon(R)Platinum 8163 CPU和336GB RAM。

        表1总结了我们的模型与一些最先进的方法相比的性能,表的下半部分侧重于矢量化表示。我们参加2021 Argoverse Motion Forecasting Competition比赛,以官方指标FDE6排名第一,大大超过了其他矢量化方法(表二)。

 C. Ablation Experiments

        我们报告了在Argorverse验证集上评估的消融实验。对于这些实验,我们在每十个样本中保留一个样本所创建的抽取数据集上进行训练和评估。这大大减少了训练时间,允许我们为每个设置运行多个实验并报告错误条;我们从经验上发现,抽取数据集上的性能与完整Argorverse数据集上良好相关。

a) Component ablation:首先,我们要评估整个预测管道中地图编码组件的贡献,这为其他消融研究提供了性能下限。我们尝试去除整个Map网络,或仅去除Map网络中的注意力机制,并在表III.R中总结了结果。移动“地图网”组件是通过删除整个基于PAGA的地图编码器网络来完成的,该网络的输出与LaneGCN框架中的代理编码器输出融合。删除“注意”是通过在计算所有注意门后手动将其覆盖为零来完成的。可以看出,注意力在绩效上提供了一个微小但统计上显著的改善。移动“地图网”组件是通过删除整个基于PAGA的地图编码器网络来完成的,该网络的输出与LaneGCN框架中的代理编码器输出融合。删除“注意”是通过在计算所有注意门后手动将其覆盖为零来完成的。可以看出,注意力在绩效上提供了一个微小但统计上显著的改善。

 b) Path attention features: 注意力特征提取器函数Φ将一系列边缘特征作为输入,包括边缘类型和边缘入射顶点的空间特征(位置和方向)。表IV显示,同时消除这两者会大大降低预测性能(相当于消除所有注意力),但单独保留其中一个会导致性能下降,这表明它们可能包含冗余信息。这可以直观地理解,因为车道连通性和车道空间关系都描述了驾驶员感知的相同语义关系。

c) 注意特征提取器Φ:对于特征提取器Φ,置换敏感函数(如LSTM或级联)比对称函数(如求和)执行得更好,如表五所示。

d)注意特征容量:消除多头注意(使用单个注意头,Nhead=1)会按预期降低性能。由于边缘特征中的通道数量Ce限制了对捕获复杂组合模式所需的交互类型进行编码的能力,因此约束它(Ce=1)对预测精度的影响甚至更大。见表VI

V. CONCLUSION

        PAGA的开发动机来自复杂的现实世界道路配置和其中的交通交互,我们评估了它在理解异质图上的非局部交互方面的有效性,其中既有突出注意力结构的说教问题,也有具有HD地图的大尺度运动预测数据集。我们希望继续探索它的应用,特别是通过具有丰富语义上下文的路径来建模交互的问题。

        PAGA的计算效率需要进一步研究。随着路径长度的增加,路径的数量随着图形的分支因子呈指数增长。当Φ函数是置换不变量时,具有相同源顶点和目标顶点的路径可能会被合并以降低计算成本,但较大邻域中的顶点数量可能会以指数方式增长。我们将在未来的工作中寻找解决这一复杂性的方法。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值