HiVT、VectorNet运动预测方法分析

1. VectorNet原理
基于DL的运动预测方法有基于渲染的方法和基于坐标点编码的方法:基于渲染的方法通过将交通要素渲染成一张特征图,再基于CNN等网络对特征进行学习,实现目标对象未来轨迹预测。基于交通要素渲染成特征图方法存在CPU算力需求大,难以渲染目标场景所有特征的问题.并且,基于CNN方法进行特征抽提存在CNN不能学习大范围几何特征,没有时序特征,且计算、存储消耗过大的问题;基于坐标点编码的方法直接使用交通要素的坐标点构成输入向量,再经过图神经网络和RNN/MLP进行特征学习,方法缺点是不能表征交通要素间的作用关系。
VectorNet方法定义输入向量为:
V i = [ d i s , d i e , a i , j ] V_i = [d^s_i,d^e_i,a_i,j] Vi=[dis,die,ai,j]
其中前两项表示向量的起点和终点,第三项表示属性信息,如语义标签,第四项用一个整数表示不同折线的所属关系,相同j、相关语义标签的折线可以被连接(下图中相同颜色线段的j和语义标签相同,可被连接,即图中第2列)。
Vectornet交通要素向量化的策略为:

  • 轨迹转换为折线,再转换为向量。
  • 车道线转换为折线,再转换为向量。
  • 区域如人行道转换为多边形,再转换为向量。
  • 点集合转换为向量。

在这里插入图片描述

VectorNet的交通要素向量编码过程分为局部子图建模和全局连接图编码。局部编码即相同 j , a i j,a_i j,ai的向量连接成子图,全局连接图节点为局部子图输出的特征图,即: p = φ a g g ( v i ( L P ) ) p=\varphi_{agg} ({v^{(L_P)}_i}) p=φagg(vi(LP))为局部子图的输出。全局图的节点为 { p 1 , p 2 , . . . , p p } \{p_1,p_2,...,p_p\} {p1,p2,...,pp},全局图的边为基于自注意力机制计算的相似度。
VectorNet的解码器使用的MLP,输入的是局部特征图、全局特征图,输出为一个二维坐标向量,表示物体未来时刻位置,MLP是由多个全连接层和Relu激活函数组成的网络,用于从输入向量中提取非线性特征,并映射到输出向量。

2. VectorNet算法流程

VectorNet的处理流程主要包括以下几个步骤:

  • 读取轨迹和地图数据,将其转换为向量化表示。
  • 对每个向量化的实体,使用subgraph_net进行局部子图编码,并输出局部特征。
  • 以每个实体的局部子图输出特征作为节点,节点间基于自注意力机制的相似度作为边构建全局图编码。
  • 对所有向量化的实体,使用GNN进行全局交互建模,输出每个实体的隐状态。
  • 对每个目标智能体,使用一个解码器生成多个可能的未来轨迹,并评估他们的概率。
  • 计算损失函数,使用最小平均位移误差(minADE)和最终位移误差(minFDE)作为评价指标。

3. HiVT算法

HiVT算法是基于分层向量Transformer模型的多智能体运动预测算法,可以有效地捕捉场景中的局部和全局交互,并生成多模态的未来轨迹。

  • 首先算法将场景中的每个智能体的历史轨迹、类别等属性信息编码为一个向量表示。
    h i 0 = M L P ( [ x i T , c i ] ) h^0_i = MLP([x^T_i,c_i]) hi0=MLP([xiT,ci]),其中 x i T x^T_i xiT是智能体 i i i的历史轨迹, c i c_i ci是类别嵌入。
  • 使用一个局部编码器来对每个智能体的邻域内的其他智能体进行注意力聚合,从而得到一个局部上下文向量。
    h i l = LayerNorm ( h i l − 1 + MLP ( Attention ( Q = h i l − 1 , K = H N ( i ) l − 1 , V = H N ( i ) l − 1 ) ) ) \mathbf{h}_i^l = \text{LayerNorm}(\mathbf{h}_i^{l-1} + \text{MLP}(\text{Attention}(\mathbf{Q}=\mathbf{h}_i^{l-1}, \mathbf{K}=\mathbf{H}_{\mathcal{N}(i)}^{l-1}, \mathbf{V}=\mathbf{H}_{\mathcal{N}(i)}^{l-1}))) hil=LayerNorm(hil1+MLP(Attention(Q=hil1,K=HN(i)l1,V=HN(i)l1)))
    其中 N ( i ) N(i) N(i)是智能体的邻域集合, H N ( i ) l − 1 \mathbf{H}_{\mathcal{N}(i)}^{l-1} HN(i)l1是其邻域内所有智能体在第 l − 1 l-1 l1层的向量表示,Attention是多头自注意力机制。
  • 使用全局交互模块来对所有智能体进行自注意力操作,从而得到一个全局上下文向量。
    h ~ i L = LayerNorm ( h i L + MLP ( Attention ( Q = h i L , K = H L , V = H L ) ) ) \tilde{\mathbf{h}}_i^L = \text{LayerNorm}(\mathbf{h}_i^L + \text{MLP}(\text{Attention}(\mathbf{Q}=\mathbf{h}_i^L, \mathbf{K}=\mathbf{H}^L, \mathbf{V}=\mathbf{H}^L))) h~iL=LayerNorm(hiL+MLP(Attention(Q=hiL,K=HL,V=HL)))
    其中, h ~ i L \tilde{\mathbf{h}}_i^L h~iL是智能体 i i i在最后一层的全局上下文向量, H L \mathbf{H}^L HL是所有智能体在最后一层的向量表示。
  • 使用一个多模态未来轨迹解码器来根据局部和全局上下文向量生成多个可能的未来轨迹,并使用一个分类器来预测每条轨迹的概率。
    x ^ i , k , t + 1 = x ^ i , k , t + Tanh ( MLP d e c , k ( [ h ~ i L , x ^ i , k , t , δ ^ i , k , t ] ) ) , k = 1 , . . . , K \hat{\mathbf{x}}_{i,k,t+1} = \hat{\mathbf{x}}_{i,k,t} + \text{Tanh}(\text{MLP}_{dec,k}([\tilde{\mathbf{h}}_i^L, \hat{\mathbf{x}}_{i,k,t}, \hat{\delta}_{i,k,t}])), k=1,...,K x^i,k,t+1=x^i,k,t+Tanh(MLPdec,k([h~iL,x^i,k,t,δ^i,k,t])),k=1,...,K
    其中, δ ^ i , k , t \hat{\delta}_{i,k,t} δ^i,k,t是智能体在第K个模态下在时刻 t t t的速度估计, x ^ i , k , t \hat{\mathbf{x}}_{i,k,t} x^i,k,t是其在第 k k k个模态下在时刻 t t t的位置估计。
    p k = Softmax ( MLP c l s ( [ h ~ i L , x ^ i , k , T ] ) ) p_k = \text{Softmax}(\text{MLP}_{cls}([\tilde{\mathbf{h}}_i^L, \hat{\mathbf{x}}_{i,k,T}])) pk=Softmax(MLPcls([h~iL,x^i,k,T]))
    其中, p k p_k pk是第k个模态的概率。Softmax是归一化函数。

在这里插入图片描述

HiVT模型结构如图所示:Local Encoder(右下角)包含自身历史轨迹建模,Agent-Lane(map)交互建模,Agent-Agent间交互建模,由三个Transformer模型实现。之后与VectorNet类似,编码后的输出特征被用作节点,用于建模节点间的相互作用,在模型结构图右上角左侧。

4. HiVT、VectorNet算法分析

  • HiVT矢量化过程使用相对位置差,VectorNet使用绝对位置,需要对齐。
  • HiVT提出了一种平移不变的场景表示和旋转不变的空间学习模块,使得该模型能够对场景的几何变换具有鲁棒性,并能在单次前向传播中为多个智能体做出准确预测,而VectorNet需要对每个智能体进行单独的预测,且对场景旋转敏感。
  • HiVT在Argoverse运动预测基准上达到了最先进的性能,同时具有较小的模型大小和较快的预测速度,而VectorNet在性能大小和速度上都有所不足。
  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值