关键应用程序,例如高级驾驶辅助系统 (ADAS) 和自动驾驶。 本文介绍了一种新颖的方法,可以在自我车辆的第一人称(以自我为中心)视图中同时预测目标车辆的位置和规模。 我们提出了一种多流循环神经网络 (RNN) 编码器-解码器模型,该模型分别捕获对象位置和尺度以及像素级观察,用于未来的车辆定位。 我们表明,结合密集光流可以显着改善预测结果,因为它可以捕获有关运动和外观变化的信息。 我们还发现,对自我车辆的未来运动进行显式建模可以提高预测准确性,这对于具有运动规划能力的智能和自动化车辆尤其有益。 为了评估我们方法的性能,我们提供了一个新的第一人称视频数据集,该数据集是从道路交叉口的各种场景中收集的,这些场景对于预测来说尤其具有挑战性,因为车辆轨迹是多样化和动态的。
我们提出了预测第一人称视频中目标车辆的相对位置和规模的新问题。 我们展示了一个从交叉路口场景收集的新数据集,以包括尽可能多的车辆和运动。 与我们的数据集和 KITTI 上的其他基线相比,我们提出的具有未来自我运动意识的多流 RNN 编码器-解码器结构显示出可喜的结果,并且我们通过消融研究测试了每个组件对模型的贡献。
未来的工作包括结合来自场景上下文、交通标志/信号、深度数据和其他车辆-环境交互的证据。 还可以考虑诸如车辆与车辆和车辆与行人的交互等社会关系。