End-to-End Learning of Driving Models withSurround-View Cameras and Route Planners
作者认为,在自动驾驶中单单使用前向摄像头的图像无法反映所有驾驶信息,不足以学习安全的驾驶模型,所以本文开发了360度视角的传感器设置。而仅凭借相机图像依旧无法完成安全的自动驾驶,所以需要更加顶层的驾驶命令。本文通过全局路线来作为路线规划器提供顶层命令。
本文采用的是端到端的驾驶模型,从摄像头和路线规划器的输入直接输出驾驶控制。模型结构如下所示。
GPS信息和全局Map分别输入全连接层和CNN进行特征提取,而各个摄像头的数据输入到CNN再接LSTM进行特征提取。之后统一连接到全连接层,最后是两个FN以输出转向控制和速度控制。
CNN采用在ImageNet 数据集上预训练的ResNet34 模型。
Surround-View and TomTom route planner
数据说明
传感器设置:
共八个摄像头,每45°安装一个,360全景环绕,采用GoPro Hero 5 Black相机,所有相机以60fps采集1080p的图像。具体安装方式如下图所示。
地图信息的使用:
使用Luxen和Vetter针对OpenStreetMaps(OSM)数据开发的实时路线算法作为我们的路线规划器。将过去的行驶轨迹(一堆GPS坐标)提供输入到该算法,以将车辆定位到道路网络,并且将前方300米以内的规划道路的GPS标签用作该道路的规划路线的表示位置。
Luxen, D., Vetter, C.: Real-time routing with openstreetmap data. In: ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems (2011)
人类专家驾驶数据:
以50Hz在汽车的CAN总线上记录驾驶操作,例如方向盘角度和车速。
车辆里程计:
使用GoPro摄像机的内置GPS和IMU模块在行驶时记录18Hz的GPS数据和200Hz的IMU测量值
数据流时间同步:
所有传感器的内部时钟均与GPS时钟同步。视频帧的最终同步误差最高为8.3(ms),而地图信息和视频帧的误差最高为0.5s,CAN总线信号视频帧的同步误差最高为10 ms,这些都是可以接受的,因为人类驾驶再面对意外和预期的平均反应时间为1.3和0.7 s。
数据集共包含60个小时的驾驶数据。和其他数据集的对比。