1 基础背景
论文链接:https://arxiv.org/abs/2005.04259
团队:Waymo
2 Motivation
之前的方案中,主要通过BEV获取车路信息,然后用CNN将提取特征,出现了如下问题:
渲染信息丢失(lossy rendering)
计算量过大(computationally intensive);
感受野(receptive fields)有限,干扰很多,学习不好
那么能否直接从结构化的高精地图信息里获取表征(representation)?
3 解决方法
将车辆动态信息和结构化的高精地图信息向量化(vectorized form),通过向量化的信息进行轨迹预测;
提出层级图网络(hierarchical graph network)VectorNet,建模多道路主体之间的交互;
进行节点补全工作(故意遮蔽输入节点,让模型去重建这些特征,以此让模型能够更精准地捕捉交互信息),这样的做法让模型更加强大。mask掉一些特征是为了重构特征,更好获取交互信息。
4 具体效果
4.1 评价指标
ADE 平均位移误差
DE 位移误差
4.2 结果
效果与CNN同等甚至更好;
从模型大小角度,节省70%;
从FLOPs角度,降低了模型所需算力的数量级。
5 反思
1.向量化的时候,选取的特征可以选择更多有用的信息,目前选择的较少(首位信息,类型信息等)。
2.不一定要用全连接,比如车道线和红绿灯没什么关系,拓扑结构可以优化;
2.predction的时候不一定要MLP for simplicity,可以考虑LSTM,因为轨迹点之间都是有关系的,论文里自己也写了可以用其他advanced decoders。
6 学习
特定术语或表达 | 解释 | 备注 |
---|---|---|
特征工程 | 把数据变成可以利用的特征的过程 | 数据挖掘的难度在于特征工程 |
log-likelihood | log似然 | |
Huber loss | 一种loss计算方法 | 当预测偏差小于δ时,采用平方误差,当预测偏差大于δ,采用线性误差。相比于最小二乘的线性回归,Huber Loss降低了对异常点的惩罚程度,是一种常用的robust regression的损失函数。 |
消融实验(Ablation study) | 对比实验,改变输入或者模型参数等,观察模型性能变化,以验证作用。 | |
CNN中感受野的关键特征 | 卷积核的大小和特征裁剪策略 | 卷积核越大,效果越好,但是算力需求增大;特征裁剪越大(a larger crop size),同前效果越好,但是算力需求增大。 |
图片精度与模型效果 | 图片精度越大,一般来说模型效果越好。但是并不绝对,因为它会反向导致有效感受野减小。 | |
backbone | 主干网络 | backbone是用来提取特征的。 |
注意力机制 | 找到感兴趣的前景,找到关系更紧密的邻居 | |
embedding | 图像变成向量 | |
argoverse数据集 | 可以用在多种用途的数据集 | 网站:www.argoverse.org/data.html 论文:Argoverse:3D Tracking and Forecasting with rich maps |