PaperNotes(16)-Learning Lane Graph Representations for Motion Forecasting

小陈同学-陈百万

已于 2023-10-25 21:33:49 修改

阅读量1.3k

点赞数

分类专栏： PaperNotes 文章标签：机器学习

于 2021-04-29 23:40:36 首次发布

本文链接：https://blog.csdn.net/sinat_40624829/article/details/116208460

版权

PaperNotes 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

Learning Lane Graph Representations for Motion Forecasting

自动驾驶论文阅读笔记2
Uber–ECCV2020–论文文章代码

模型的作用：Motion Forecasting （这个motion都包括什么呢？）
方法：模型由四个模块组成–ActorNet、MapNet、FusionNet、Header

1.ActorNet

作用–编码actor轨迹特征

输入：每一条actor的轨迹（3xT的输入向量）(actor包括所有运动者？)
操作：1D CNN + FPN(特征金字塔)（多尺度不断上采样融合特征）
输出：该轨迹的特征向量(多少维度呢？128维度么)

轨迹表示–位移差
$\{\Delta p_{-(T-1)},...,\Delta p_{-1},\Delta p_{0}\}$

$\Delta p_{t} = (x_t,y_t)-(x_{t-1},y_{t-1})$

长度为T，不足T的padding 0，下面2xT的位移向量拼接 1xT的padding标志向量(1-表示该位置的位移是padding的)

ActorNet–3组1D卷积，每组包括两个残差块；特征金字塔融合多尺度的特征（卷积卷下去，上采样，再和对应的尺度叠加）

输出-- The output of ActorNet is a temporal feature map,whose element at t = 0 is used as the actor feature.（不是很清楚这个时间序列是怎么回事？）

2.MapNet

作用–编码地图特征，主要是对车道的编码

构建lane graph(结点与连接的定义)
利用LaneGCN获取lane图的特征

2.1 构建lane Graph

lane node --车道中心线的一段，结点位置为两端结点坐标的均值。==一条车？所有？==道线上的众多结点可以表示为向量 $V\in\mathbb{R}^{N\times 2}$ （结点的二维特征表示）
车道结点特征向量带有4个连接矩阵 $\{A_i\}_{i\in \{pre,suc,left,right\}}$ , $A_i\in\mathbb{R}^{N\times N}$ , $A_{i,jk}=1$ 表示结点 $j$ 存在一个类型 $i$ 的邻居结点 $k$ 。
LaneConv Operator
a). lane node 特征 $x_i$ –编码形状(长度方向)，位置(空间坐标)信息，经过全联接层处理后，输出lane node特征 $x_i$ ；构成结点特征矩阵 $X$ 。
$x_i=MLP_{shape}(v_i^{end}-v_i^{start})+MLP_{loc}(v_i)$
b).LaneConv 为了获得lane graph大规模拓扑信息（四个 $A_i$ 矩阵都用上）
$Y=XW_0+\sum_{i\in\{pre,suc,left,right\}}A_iXW_i$
c).Dilated LaneConv 为了让模型获得车道线方向的长时依赖关系(速度快的物体位移大，只用到 $A_{pre}$ 和 $A_{suc}$ )
$Y=XW_0 + A^k_{pre}XW_{pre,k} + A^k_{suc}XW_{suc,k}$
d). $LaneConv(k_1,...,k_c)$ =Dilated LaneConv + LaneConv - $k_c$ 为第 $c$ 个dilation 尺寸
$Y=XW_0+\sum_{i\in\{left,right\}}A_iXW_i + \sum_{c=1}^C(A^{k_c}_{pre}XW_{pre,k_c}+A^{k_c}_{suc}XW_{suc,k_c})$

2.2 LaneGCN操作
$LaneConv(k_1,...,k_c)$ + Linear Layer 构成残差块， 4个残差块堆叠，构成LaneGCN。

注意点：
每个结点与邻居结点的连接关系，指明前后左右的结点。
a). 结点A的前驱结点、后续结点：同一条车道线上，能够到达A的结点和A能够到达的结点
b).结点A的左邻居结点、右邻居结点：邻居车道线上空间距离 $l_2$ 最近的结点

对车道结点图不采用广泛使用的图卷积 $L=D^{-\frac{1}{2}}(I+A)D^{-\frac{1}{2}}(1)$ 更新隐状态的原因：
a). 不知道结点特征会保存何种车道信息（可解释性不强？）
b). 该拉普拉斯矩阵操作没法获取结点的连接关系信息(没有对 $A_i$ 矩阵的操作，(1)式中的A为结点的邻接矩阵，与 $A_i$ 内涵不同)
c). 无法解决长时依赖性的问题
为了解决以上三个不足点，作者提出了LaneConv Operator操作。

Dilated LaneConv 参考了dilated convolution，说是能够沿着车道线传递k步的信息。

3.FusionNet

利用空间注意力机制(spatial attention)（用于构建A2L, L2A, A2A）和LaneGCN(主要用来构建L2L网络的)融合actor结点和lane结点的信息，
四个信息融合模块：

A2L-将实时交通信息传达给lane node
L2L-依据实时交通信息，更新lane node 的特征
L2A-将更新后lane node 的特征返回给actor
A2A-解决actor之间的相互作用，并且actor特征给motion预测网络

L2L 网络结构-结点特征更新时的LaneGAN结构一致
A2L, L2A, A2A网络结构一致，采用空间注意力机制构成残差块。
$y_i=x_iW_0 + \sum_j\phi(concat(x_j,\Delta_{i,j},x_j)W_1)W_2$

4.Prediction Header

Prediction Header包含两路分支

回归分支- 回归每一个actor的k种模态(速度？path？)的预测轨迹，每一条轨迹包括T个时间步长， $p_{m,1}^k$ 轨迹的二维特征。
$O_{m,reg}=\{(p_{m,1}^k,p_{m,2}^k,...,p_{m,T}^k)\}_{k\in[0,K-1]}$
分类分支-计算每个actor k种模态的置信度, 输入特征：actor 特征拼接预测轨迹的偏移 embeding- $p_{m,T}^k-p_{m,1}^k$

5.模型参数学习

end-to-end 学些过程，总的损失函数=分类损失+回归损失
$L=L_{cls} + \alpha L_{reg}$
分类损失：置信系数的max-margin loss
$L_{cls}=\frac{1}{M(K-1)}\sum_{m=1}^M\sum_{k\neq\hat{k}}\max(0, c_{m,k}+\epsilon-c_{m,\hat{k}})$
回归损失：正预测轨迹，逐结点smoth l1 loss
$L_{reg}=\frac{1}{MT}\sum_{m=1}^M\sum_{t=1}^Treg(p_{m,t}^{\hat{k}}-p_{m,t}^*)$

注：正轨迹 $\hat{k}$ ,在最后一个时间结点处拥有最小的偏移误差。

参考博文：
1.ECCV2020介绍Uber在GNN-based motion forecasting的两篇研究论文–还介绍了另一篇文章
2.2007-Learning Lane Graph Representations–提供代码开源信息，赞！
3.文献阅读报告-Learning Lane Graph Representations for Motion Forecasting–有和VectorNet的比较。

小陈同学-陈百万

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
PaperNotes(16)-Learning Lane Graph Representations for Motion Forecasting

自动驾驶论文阅读笔记21.ActorNet2.MapNet《Learning Lane Graph Representations for Motion Forecasting》Uber–ECCV2020–论文文章代码模型的作用：Motion Forecasting （这个motion都包括什么呢？）方法：模型由四个模块组成–ActorNet、MapNet、FusionNet、Header1.ActorNet作用–编码actor轨迹特征输入：每一条actor的轨迹（3xT的输入向量）(act
复制链接

扫一扫