论文解读FIERY: Future Instance Prediction in Bird‘s-Eye View from Surround Monocular Cameras

FIERY是一种端到端的概率预测模型,它在环视单目相机的鸟瞰图中预测自动驾驶环境中的动态对象未来轨迹。该模型无需依赖高精度地图或激光雷达,通过结合过去的上下文和当前的共同参考框架,预测动态代理的多模态未来运动,提高了自动驾驶系统的预测能力和安全性。
摘要由CSDN通过智能技术生成

FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras论文精读

基于环视单目相机鸟瞰图的未来实例预测文章2021年英国自动驾驶公司wayve以及剑桥大学合作发表在ICLR的。是自动驾驶的鸟瞰图下进行实例分割和预测任务。

1、问题 对未来状态的预测

如果不借助高精度地图(HD map)以及其他的先验信息,在复杂道路情况下,如何有效的解决突发情况的问题,例如前方岔路突然进入车辆,或者倒车过程突然有车辆过来?

  • 在高速动态变化环境下如何做移动规划----例如:在自动驾驶过程中,高速移动的车辆和行人对于作出成功的移动规划有着长期的影响;
  • 如何对道路车辆和行人作出准确的状态估计----这样就可以帮助移动规划算法更好的解决多模态输出问题

预测未来状态是自动驾驶的关键挑战。Autonomous driving is inherently a geometric problem,where the goal is to navigate a vehicle safely and correctly through 3D space.
1)进行预测原因/好处:
为了在路上与其他车辆安全驾驶,不仅需要确定它们目前的位置,还需要根据它们目前的移动情况预测它们未来的位置。做出这些类型的预测对于人类来说是直观的,但对于自主系统来说仍然是非常具有挑战性的。预测是与其他道路使用者安全有效驾驶的关键部分。预测世界未来状态的预测模型——尤其是其他动态因素——是稳健驾驶的关键组成部分。FIERY是一种单目摄像机鸟瞰图中的概率未来预测模型,以端到端的方式预测道路代理人的多模态未来轨迹
2)使用单眼预测进步的可能:
近年来,我们看到了基于相机的感知与基于激光雷达的感知的进步,我们预计这也可能用于更广泛的单眼视觉任务,包括预测。建立一个基于摄像机的感知和预测系统将使一个比激光雷达传感更精简、更便宜、更高分辨率的视觉识别系统成为可能。
3)优点:
我们的方法将传统自动驾驶堆栈的感知、传感器融合和预测组件端到端结合起来,通过直接从环绕RGB单眼相机输入估计鸟瞰图预测。我们支持端到端的方法,因为它允许我们直接优化我们的表示,而不是在多阶段离散任务流水线中解耦这些模块,这容易导致级联错误和高延迟
此外,经典自动驾驶堆栈通过外推动态代理的当前行为来处理未来预测,而不考虑可能的交互作用。他们依靠高清地图,利用道路连通性生成一组未来轨迹。相比之下,FIERY学习以端到端的方式直接从相机驱动数据预测动态代理的未来运动,而不依赖高清地图或激光雷达传感。它可以推理未来的固有随机性质,并预测多模态未来轨迹。。预测的实例分割投影到bev视角,将动态智能体的平均未来轨迹可视化为透明路径;底行:在 100m × 100m 大小的自车周围鸟瞰图,未来实例预测由中心黑色矩形表示。
4)为什么要bev :
从过去的相机输入中学习对应关系和运动可能很棘手,因为自我载体也在移动。如上图所示,两个最大的性能增益来自(i)具有时间模型以合并过去的上下文,以及(ii)将过去的特征提升到当前的共同参考框架。当过去的特征在一个共同的参照系中时(因此自我运动被排除在外),学习动态主体的对应关系和运动的任务变得简单得多
怎么预测未来状态:不展开”变量直接预测当前状态s_t中所有未来实例分段和运动,导致性能大幅下降。这是因为顺序约束不再强制执行,与我们以递归方式预测未来状态的方法相反
说明我们展开了变量。引入两种概率分布预测未来状态。不止预测一种未来轨迹,而是一个分布,给一个置信度。使用KL散度损失作为
5)未来工作
我们将共同培训一项驾驶政策,以根据未来行动调整未来预测模型。这样的框架将在基于模型的强化学习环境中实现有效的运动规划。

贡献:第一个实例分割预测一体化框架 概率模型适合动态环境的多模态输入 超过基线模型
现有研究基于单目的方法:1、基于透视坐标系 2、基于高精地图生成简化的鸟瞰图光栅表示场景。针对上面的问题,FIERY算法提出一种端到端,不依赖高精地图,仅基于单目相机的鸟瞰图实现道路动态物体实例预测算法

2、实验架构及过程

  1. 过去时刻 {1, …, t},预测像素的深度概率分布并根据已知的相机内参和外参,将相机输入 (O1, …, Ot) 提升到 3D;得到视锥
  2. 特征投影到BEV (x1, …, xt)。用空间变换器模块 S ,根据过去的自运动 (a1, …, at−1),将BEV特征转换为当前参考系(时间 t3帧)。
  3. 3D卷积时域模型学习时-空状态3D时序模型提取特征 st。鸟瞰图特征x1.。。xt转变到当前参考帧t使用过去的ego-motion。at-1对应t-1到t的ego-motion。使用空间转换模块通过过去的特征和动作得到特征,使用广播机制
  4. 参数化两个概率分布:求解过程类似VAE,接两个线性层得到均值和方差。求解未来概率分布时,受到变分自编码器的启发,采用条件变分法模拟未来预测的随机性。简而言之,作者将当前时空状态和未来的H帧标签拼接输出未来概率分布。利用KL散度拉近当前概率分布和未来概率分布。当前和未来分布。当前分布以当前状态 st 为条件,未来分布以当前状态 st 和未来标签(yt+1 , …, yt+H )为条件。H是未来预测视野,标签对应未来中心、偏移、分段和流量
  5. 从训练中的未来分布和推理中的当前分布,采样一个潜代码 ηt。当前状态 st 和潜代码 ηt 一起送入门控神经网络预测未来帧的特征编码。测试时FIERY只从当前概率分布采样编码,并预测未来特征,此时概率分布已经包含了未来信息,递归地预测未来状态 (st+1,…,st+H)。
  6. 状态被解码为BEV未来实例分割和未来运动(yˆt,…,yˆt+H)

通过3d边界框投影到bev视图create a bird’s-eye view occupancy grid.
所有标签(yt,…,yt+H)都在当前的参考系中,并通过将标签与真实的未来自我运动进行转换而获得
输出。显示实例中心的热图,找到实例中心的概率,车辆分段,指示实例中心的矢量字段对应未来运动实例流动
多个头:语义分段、实例中心、实例偏移。

3、评价指标

主要两种:未来视频全景质量
1)识别质量;随着时间的推移,实例被检测的一致性。
2)分割质量:实例分段的准确性 TP对应预测的实例分割 与地面groundtruth交集intersection of union大于0.5 IOU
广义能力距离:衡量预测多模态结果性能

4、实验细节

训练使用过去1s语义并且预测2s对应3帧过去框架以及4帧未来预测2hz nuscene Lyft过去的6帧和未来的10帧,频率为5Hz。每个时间步,模型处理6个摄像机图像224*480.
1)和同类算法比较
先前算法单个时间帧多视图图像输出动态鸟瞰图分割,设置未来视野H=0,仅预测当前分割–FIERY Static
2)同FIERY变体进行比较
为了比较模型在未来实例分割和预测方面的性能:引入baseline
静态模型 推理模型
3)进行内部消融实验
比较内部算法组件对于性能的影响
5.2 未来实例预测
静态模型:正确检测所有静态物体,未来的标签都在当前参考框架内
外推模型:经典预测模型推断未来动态代理的行为。使用静态模型获得过去的实例分割序列。通过比较实例中心和匈牙利匹配算法重新定位过去实例,然后获得被识别物体过去轨迹
消融实验:没有时间信息只使用当前帧、;没有转换到当前帧t wrap、;不预测未来流动、;不展开,不会递归的预测下一个状态信息,而是直接解码状态信息、;均匀深度,将深度概率分布设置为均匀分布、;确定性无概率建模
模型不同部分获得性能的提升

6、结果总结

自动驾驶需要在多模式场景中作出决策,在这种场景中,估计世界未来状态的预测模型-尤其其他动态代理,是稳健自动驾驶的关键。我们提出了第一个基于RGB视频的鸟瞰图自动驾驶动态代理的预测模型

代码部分

config.py先看一下 是一些定义的参数,放在类cfgNode中
fiery.utils.geometry

1:resize_and_crop_image函数:裁剪成(224, 480)
2:calculate_birds_eye_view_parameters函数
bev_dimension = tensor([200, 200, 1])
bev_resolution=tensor([ 0.5000, 0.5000, 20.0000])
bev_start_position = tensor([-49.7500, -49.7500, 0.0000])
3:convert_egopose_to_matrix_numpy

train.py—>TrainingModel(cfg)[trainer.py]

class TrainingModel(pl.lighteningModule):
1、参数
2、Bird’s-eye view extent in meters
3、Model=Fiery()
4、Losses
5、uncertain weight
实例分割的一些loss计算以及参数

3.1 class Fiery():
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值