作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。
高德认为,遵守交通规则行驶是实现自动驾驶系统的必要条件,车道级交通规则通常包含在高精地图中,为自动驾驶系统提供了准确、可靠的规则指导。受限于高精地图的更新频率低、更新成本高的局限,当前自动驾驶系统朝向 “在线感知建图” 的方向发展。而目前的在线建图方法主要关注于车道线、道路拓扑等道路结构的感知,忽视了对于包含更多语义信息的交通规则的理解,这一局限使自动驾驶系统仍然需要依赖离线地图获取交通规则,限制了自动驾驶系统的“在线化”趋势。
因此,高德地图联合西安交大提出了 Driving by the Rules 的概念。提出了“将交通标志中的车道级交通规则整合至在线构建的高精地图中”这一新的具有挑战的任务,并提供一个 Benchmark 供研究人员展开相关研究。
Introduction
交通标牌是道路上的“视觉语言”,在指示交通规则中发挥了关键作用。由人类驾驶过程的启发,从交通标志中理解交通规则需要完成两个任务,理解交通标志牌中指示的车道级交通规则内容,并明确规则作用于具体哪一条车道(关联到具体的车道中心线)。同时完成上述两个任务,才能为自动驾驶系统提供准确的车道级交通规则作为指导。现有的相关工作往往关注于二者其一,缺乏对此项任务的全面研究。
为了填补当前研究的空白,高德地图依靠对交通场景强大的采集能力,组织了MapDR数据集,包含了超过 10,000 个真实驾驶场景以及18,000 条结构化车道级驾驶规则,并且提出了Integrating traffic regulations into online HD maps任务以及评测指标。同时,高德地图提出了一个模块化方法VLE-MEE和一个端到端方法RuleVLM,为此项任务提供了有效的 Baseline。数据集以及方法细节请见下文:
论文链接:https://arxiv.org/abs/2410.23780v2
项目主页:https://xuanmaixue.github.io/Driving-by-the-Rules.github.io
Integrating traffic regulations into online HD maps
本文所提出任务关注于将交通标志中的车道级交通规则整合至在线构建的高精地图中,需要完成两个子任务:从交通标志中抽取车道级交通规则
建立交通规则与车道中心线之间的关联关系
如下图所示,本文将车道级交通规则定义为多个 key : value 构成的结构化表达,以便于整合至自动驾驶系统中服务于规控等下游步骤。现实场景中一个标志牌中可能包含多条车道级交通规则,同时每条交通规则也可能与多条车道中心线相关联,这也是解决此任务中的难点。
Dataset & Benchmark
MapDR Dataset
MapDR 数据均高德地图的真实采集数据,关注于来自于北京、上海、广州三座城市的常见交通标志牌以及道路信息。数据集包含了超过 10,000 个行车场景,其中超过 18,000 条驾驶规则。
其中每个场景(一个 Clip)包含:
Raw Data
30+ 帧连续前景图像
关注交通标志的位姿(每个场景仅关注于一个标牌)
以标牌为中心 100m * 100m 范围内的矢量化地图(包含矢量线型)
相机内参以及每一帧对应的相机位姿
Annotation
标牌中包含的若干条车道级交通规则以及对应的车道中心线
每条交通规则对应的标牌内区域(以位姿表示)
数据表示如下图所示:
Evaluation Metric & Benchmark
总体任务可以视为一个二分图匹配任务,如上图所示。其中抽取车道级交通规则视作对于图中 Rule Node 的预测,Rule 和 Centerline 之间的关联关系可以视作图中 Edge 的预测。评测时两个子任务分别关注于 Rule Node 和 Edge 的 Precision 和 Recall,总体任务关注于最小子图(由一个Rule Node、一个 Centerline Node 和 一条 Edge 组成)的 Precision 和 Recall
示例如下(R.E. 指规则抽取,C.R.指关联关系推理):
最终方法的评价指标以 F1 Score 为标准
Approach
Modular Approach
模块化方法由三个级联模块构成:
Grouping:融合标牌图像信息和 OCR 信息完成标牌上元素的车道级区域分组
Understanding:依次融合单个分组的 OCR 和标牌图像信息,使用融合后的信息进行分类以预测交通规则中每个 key 对应的 value
Association:对矢量地图进行特征编码并且与交通规则特征进行信息融合,通过二分类完成判定每条车道中心线是否与交通规则关联
其中 MEE 模型专门用于对矢量地图进行特征编码,将每个矢量点进行 tokenize,使用 learnable query 配合 Intra & Inter Instance Attention 进行矢量特征的聚合,融合后每个 query 对应一条矢量的特征信息。通过 CrossAttention 进行矢量特征和交通规则特征的融合,使用融合后的 feature token 进行分类以判定中心线与规则的关联关系。
End-to-End Approach
端到端方法在多模态大模型基础上进行了探索,以 Qwen-VL-Chat 7B 作为基础模型,如图所示分别以不同方式进行了LoRA SFT,令模型生成结构化文本形式的交通规则:
TextPrompt:输入完整前景图像 + 标牌图像,将矢量点坐标以文本形式进行输入。
VisualPrompt:输入包含矢量投影的完整前景图像 + 标牌图像
RuleVLM(best):输入完整前景图像 + 标牌图像,使用 MEE 对矢量进行特征抽取并且对齐至 LLM
Experiment
在 MapDR 数据集上进行的实验结果如上表所示,启发式方法(OCR 判定 + 最近车道线匹配)难以理解复杂的交通标志牌内容,同时也无法完成复杂场景下的车道-规则关联。VLE-MEE和RuleVLM分别为模块化方法和端到端方法提供了有效的 Baseline。
Conclusion
综上所述,本文的贡献如下:
1、首次提出了 Integrating traffic regulations into online HD maps 任务,以及用于基准测试的 MapDR 数据集和评测指标。
2、MapDR 包含 10,000+ clip,涵盖了不同的交通状况,并包括超过 18,000 条人工标注的车道级交通规则。所有数据都是真实采集,并且经过了细致的校验,助力于相关任务的研究。
3、提出了模块化(VLE-MEE)和端到端(RuleVLM)两种建模方法,为目标任务并和未来的研究提供有效的 Baseline 方法。