论文精读VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation

1 基础背景

论文链接:https://arxiv.org/abs/2005.04259
团队:Waymo

2 Motivation

之前的方案中,主要通过BEV获取车路信息,然后用CNN将提取特征,出现了如下问题:
渲染信息丢失(lossy rendering)
计算量过大(computationally intensive);
感受野(receptive fields)有限,干扰很多,学习不好
那么能否直接从结构化的高精地图信息里获取表征(representation)?

3 解决方法

将车辆动态信息和结构化的高精地图信息向量化(vectorized form),通过向量化的信息进行轨迹预测;
提出层级图网络(hierarchical graph network)VectorNet,建模多道路主体之间的交互;
进行节点补全工作(故意遮蔽输入节点,让模型去重建这些特征,以此让模型能够更精准地捕捉交互信息),这样的做法让模型更加强大。mask掉一些特征是为了重构特征,更好获取交互信息。

4 具体效果

4.1 评价指标

ADE 平均位移误差
DE 位移误差

4.2 结果

效果与CNN同等甚至更好;
从模型大小角度,节省70%;
从FLOPs角度,降低了模型所需算力的数量级。

5 反思

1.向量化的时候,选取的特征可以选择更多有用的信息,目前选择的较少(首位信息,类型信息等)。
2.不一定要用全连接,比如车道线和红绿灯没什么关系,拓扑结构可以优化;
2.predction的时候不一定要MLP for simplicity,可以考虑LSTM,因为轨迹点之间都是有关系的,论文里自己也写了可以用其他advanced decoders。

6 学习

特定术语或表达解释备注
特征工程把数据变成可以利用的特征的过程数据挖掘的难度在于特征工程
log-likelihoodlog似然
Huber loss一种loss计算方法当预测偏差小于δ时,采用平方误差,当预测偏差大于δ,采用线性误差。相比于最小二乘的线性回归,Huber Loss降低了对异常点的惩罚程度,是一种常用的robust regression的损失函数。
消融实验(Ablation study)对比实验,改变输入或者模型参数等,观察模型性能变化,以验证作用。
CNN中感受野的关键特征卷积核的大小和特征裁剪策略卷积核越大,效果越好,但是算力需求增大;特征裁剪越大(a larger crop size),同前效果越好,但是算力需求增大。
图片精度与模型效果图片精度越大,一般来说模型效果越好。但是并不绝对,因为它会反向导致有效感受野减小。
backbone主干网络backbone是用来提取特征的。
注意力机制找到感兴趣的前景,找到关系更紧密的邻居
embedding图像变成向量
argoverse数据集可以用在多种用途的数据集网站:www.argoverse.org/data.html 论文:Argoverse:3D Tracking and Forecasting with rich maps
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值