最近大模型在学术界火起来了,基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外,大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领域也有类似的数据(图像/视频+caption)用于车辆行为分析如BDD-X,最近也有新的工作直接构建自动驾驶场景下的QA,如DQA和DRIVEGPT4中使用chatgpt扩展的BDD-X数据集,这些工作都为端到端自动驾驶技术提供了可能;然而,现有多模态范式中输入尺度较小(224x224),识别精度受限,因此在多模态的基础上提出了高分辨率分支增强目标很重要,尤其是风险目标的识别能力用于——风险目标定位和自车意图以及建议预测(ROLISP),接下来我们一起看下具体是怎么实现的。

HiLM-D是怎么做的?

自动驾驶系统通常采用针对不同任务的单独模型,导致设计复杂。HiLM-D首次利用单一的多模态大语言模型(MLLMs)来整合来自视频的多个自动驾驶任务,即"Risk Object Localization and Intention and Suggestion Prediction(ROLISP)"任务。ROLISP使用自然语言同时识别和解释风险目标,理解自动驾驶车辆的意图并提供运动建议,从而消除了需要特定任务架构的必要性。然而,由于缺乏高分辨率(HR)信息,现有的MLLMs在应用于ROLISP时通常会错过小物体(例如交通锥)并过分关注显著的物体(例如大卡车)。本文提出了HiLM-D("Towards High-Resolution Understanding in MLLMs for Autonomous Driving"),这是一种有效的方法,将HR信息合并到MLLMs中,用于ROLISP任务。特别是,HiLM-D整合了两个分支:(i)低分辨率推理分支,可以是任何MLLMs,处理低分辨率视频以为风险目标添加标题并识别自动驾驶车辆的意图/建议;(ii)高分辨率感知分支(HR-PB),是HiLM-D的主要部分,摄入高分辨率图像以通过捕获具有视觉特定HR特征图的高分辨率特征图来增强检测,并优先考虑所有潜在风险,而不仅仅是显著的目标。HiLM-D的HR-PB作为即插即用模块,可以无缝地适应现有的MLLMs。在ROLISP基准测试上的实验证明,HiLM-D在caption生成方面的BLEU-4得分提高了4.8%,在检测方面的mIoU提高了17.2%,显示了HiLM-D相对于主要MLLMs的显著优势。

HiLM-D_自动驾驶

HiLM-D优势有哪些?

• 利用MLLMs通过自然语言范例来解决多个自动驾驶任务,即ROLISP。

• 普遍的MLLMs通常在训练时输入具有单一小尺寸(即224×224)的图像。HiLM-D引入了HiLM-D(400x400)来生成丰富的包含视觉特定先验知识和突出高风险区域的高分辨率特征图,这些特征图可以与现有的MLLMs无缝集成并增强它们。

•在ROLISP基准测试上进行了实验,以证明HiLM-D的卓越性能,例如在BLEU-4caption生成方面比最先进的MLLMs提高了4.8%。

目前领域相关工作

多模态大语言模型

随着大语言模型(LLMs)的出现,自然语言处理取得了重大进展,例如GPT系列,T5,LLaMA等。受LLMs的潜力激发,许多多模态大语言模型(MLLMs),例如LLaVA,MiniGPT-4,Video-LLaMA和InstructBLIP,已被提出以将LLMs扩展到多模式领域,即感知图像/视频输入,并在多轮对话中与用户交流。这些模型在大规模的图像/视频文本对上进行了预训练,但这些模型仅能处理图像级任务,如图像caption和问题回答。因此,一些作品如ContextDET,KOSMOS-2和Shikra已被提出,以实现MLLMs的基础能力,产生边界框。然而,所有当前的MLLMs都在低分辨率的图像文本对中训练模型,这在高分辨率自动驾驶场景中限制了感知结果,

自动驾驶

在自动驾驶领域,传统的自动驾驶算法通常独立处理不同的任务,例如检测、跟踪、推理和预测。为了提取更丰富的跨任务信息,研究人员开始探索将多个任务集成到端到端的训练框架中。例如,一些作品如D&T展示了检测和跟踪的联合训练,FaF进一步将检测器与轨迹预测器统一,取得了显著的成果。UniAD脱颖而出,将全栈自动驾驶任务融合在一个统一的框架中,尽管仍然依赖于每个任务的不同子网络。该领域中的一个新方向是将自然语言用作跨任务的统一输出。例如,ADAPT使用单个caption来预测意图并提供解释,而DRAMA旨在检测和解释风险目标。在HiLM-D中,比Drama和ADAPT更进一步,即ROLISP,旨在识别、解释和定位风险目标,同时预测其意图并提供建议。

HiLM-D方法设计

HiLM-D_语言模型_02

Low-Resolution Reasoning Branch

低分辨率推理分支(LR-RB)利用MLLM来接收低分辨率(LR)视频输入,并以自然语言方式生成识别的风险目标(包括原因)以及自车的意图和建议,包括一个视觉编码器和一个大语言模。

HiLM-D_模态_03

High-Resolution Perception Branch

高分辨率感知分支(HR-PB)专门设计用于整合来自高分辨率图像的视觉特定信息以及与潜在高风险目标相关的特征,以供LR-RB使用。

该分支由四个部分组成:

• HR空间提取器(HRSE),用于获取HR帧的HR特征;
• 枚举模块,用于突出显示所有潜在高风险目标;
• 整合模块,将所有潜在风险目标整合到LR-RB中;

• 查询检测头,用于基于HR特征检测目标。

HR空间提取器(需训练的ResNet)

HiLM-D_人工智能_04

枚举模块(冻结的GradCAM)

HiLM-D_人工智能_05

整合模块(需训练的交叉注意力)

HiLM-D_模态_06

查询检测头(需要训练的交叉注意力+MLP)

HiLM-D_自动驾驶_07

实验设置与分析

HiLM-D_人工智能_08

数据集。DRAMA(Malla等人,2023)是一个评估驾驶场景中视觉推理的基准,包括17,785个两秒交互式场景。然而,它只提供有关风险目标的标题,没有提供有关自车意图或建议的信息,这对于ROLISP至关重要。为了解决这个问题,增强了注释,扩展了DRAMA的标题,包括自车意图和建议,从而产生了DRAMA-ROLISP数据集。

评估指标。ROLISP包括两个任务:(1)标题以识别和解释风险目标,同时预测自车意图和动作,以及(2)风险目标检测。标题性能遵循标准指标(Malla等人,2023),即BLEU-4(B4),METEOR(M),CIDER(C)和SPICE(S)。使用平均交并比(mIoU)来进行检测评估。此外,还提供了按物体大小分类的IoU分数:小型(IoUS),中型(IoUM)和大型(IoUL)。

与最先进方法的比较 在DRAMA-ROLISP上进行实验,与基于图像和视频的MLLM进行比较,包括BLIP-2,LLaVA,InstrutBLIP,Shikra,eP-ALM和Video-LLaMA;请注意,除了Shikra,其他模型都无法检测物体。因此,将检测头(基于MLP的)整合到它们中以生成边界框;

Main Results

HiLM-D_语言模型_09

最后总结一下

HiLM-D引入了一种新的方法,使用多模态大语言模型(MLLMs)来统一多个驾驶任务,称为风险目标定位和自车意图以及建议预测(ROLISP)。进一步提出了HiLM-D,以生成丰富的高分辨率特征图,其中包含了视觉特定的先验信息,突出显示高风险区域,这可以无缝地与现有的MLLM集成并增强其性能。

局限性。值得注意的是,HiLM-D的数据集固有的局限性,每个视频只包含一个风险目标,这可能无法捕捉真实世界场景的复杂性。此外,该数据集缺乏如雨雪或雾等恶劣天气条件,这对于全面的自动驾驶评估至关重要。此外,提供的建议通常是简明的,例如“停车”或“让行”,这可能过于简化了可能的行动范围。未来工作是创建一个更多样化和具有挑战性的数据集,进一步推动该领域的发展。


论文:https://arxiv.org/pdf/2309.05186.pdf