End-to-end Learning of Driving Models from Large-scale Video Datasets
1 简介
End-to-end Learning of Driving Models from Large-scale Video Datasets是一篇由加州大学伯克利分校Huazhe Xu∗ Yang Gao∗ Fisher Yu Trevor Darrell完成的论文,收录在CVPR_2017的论文集中。在大规模众包视频数据中训练通用的车辆运动模型,使用端到端的体系结构学习从瞬时单目摄像机观测和先前的车辆状态来预测未来车辆运动的分布。作者在文章中介绍他们的模型包含了一种新的FCN-LSTM架构, 可以从大规模众包车辆动作数据中学习,并利用可用的场景分割侧任务来提高特权学习范式下的性能。
关键点
因为这是一篇17年的论文,需要列出一些关键点,帮助理解本文内容:
目的:希望找到一种通用的学习方法\学习策略
端到端的局限性: 只能在收集的数据与专门校准的驱动装置,或在相应的模拟上运行;
动机:当时数据集都较小从同一辆车收集或者是模拟器上收集的,提出了一种大规模在线和/或众包数据集。 为了从这些数据中学习一个模型,提出了一种新的深度学习体系结构,用于从未经校准的大规模视频数据中学习到驱动;
特权学习Privileged Learning:模型一边预测未来的运动,一边训练一个语义分割网络,然后用语义分割网络更好地帮助模型做运动预测
输入-输出:从先前的agent state预测egomotion;类似语言模型,对可能性做一个打分
对学习数据的处理:从一个语料库中去训练模型,不断评估语料库里的保留数据;
贡献Contribution:1) 一种通用的运动方法来学习深度视觉运动动作策略,根据当前的视觉观测和之前的车辆状态独立执行器运动规划;2)开发了新的FCN-LSTM,可以从demonstration loss和segmentation loss中联合学习,输出多模态预测;3) 策划并公开了一个大规模的数据集,以从具有异构执行器的车辆中学习通用的运动模型。4) 通过实验证实了具有侧任务(语义分割)损失的“特权”训练比仅从运动预测任务损失中学习Egomotion预测任务更快。
3 深度通用驱动网络
3.1 通用驾驶模型
通过先前的观察和车辆状态来预测下一个动作的可行性。
F ( s , a ) : S × A → R F(s,a):S\times A \rightarrow \mathbb{R} F(s,a):S×A→R
s表示状态,a表示具有潜在可能的运动动作,则 F ( s , a ) F(s,a) F(s,a)表示为在s状态下a的可行性分数。
通过输入原始像素信息和当前及先前的车辆状态信号,预测未来运动动作的可能性。
简单状态集合:
A = { s t a i g h t , s t o p , l e f t − t u r n , r i g h t − t u r n } A=\{staight,stop,left-turn,right-turn\} A={
staight,stop,left−turn,right−turn}
更精细状态集合描述:
A = { v ⃗ ∣ v ⃗ ∈ R 2 } A=\{\vec{v}|\vec{v}\in \mathbb{R}^2\} A=