基本信息
- 题目:Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving
- 时间:2023.12
- 机构:School of Data Science, Fudan University / Huawei Noah’s Ark Lab
- 作者:Ming Nie等
- 链接直达:github/paper/
- 方向:自动驾驶,大型视觉语言模型(VLM),知识驱动的自动驾驶,
- 概括:一个数据集包含600K问答对,将自动驾驶过程分为感知、预测和推理三步分别进行问答,相当于一个链式的推理决策过程。
理解
- 干了一件什么事:
提出了一个数据集,旨在促进解决自动驾驶过程中的推理可解释性。并提出了新的指标。 - 数据集怎么来的:
在nuScenes , Waymo , ONCE 数据集基础之上。使用了人工+GPT-4。 - 数据集采集的pipeline(如图):
用vision encoder和prior tokenizer来编码输入视频和感知先验。然后用Q-Former对齐,输入到GPT-4里,同时询问问题,得到回答。由vision decoder得到感知结果。
精读
暂无
参考文献
- https://github.com/fudan-zvg/Reason2Drive