Dolphins 简介——一种新颖的多模态语言模型

背景问题

现在的自动驾驶系统在处理复杂的多变的现实驾驶场景时,往往缺乏人类驾驶员的全面理解,及时学习和适应能力以及错误纠正能力,为了实现能够像人类一样理解和响应复杂现实世界场景的完全自主车辆(AV)一直是一个重要目标。Dolphins 是一种新颖的视觉语言模型,它被设计为具有人类般的能力作为驾驶助手。

研究方法

在开源预训练的视觉语言模型OpenFlamingo的基础上,首先采用落地思维链(GCoT)过程增强了Dolphins的推理能力,然后通过构建特定于驾驶的指令数据和进行指令调整,将Dolphins调整到驾驶领域。通过利用BDD-X数据集,我们设计并整合了四种不同的AV任务到Dolphins中,以促进对复杂驾驶场景的全面理解。

在这里插入图片描述

应用

  • 感知(场景理解):上传一个视频或者一系列图片。 通过问答,Dolphins 能够理解场景,并准确描述出来。
  • 预测与规划:Dolphins 预测车辆接下来的变化,自行规划接下来的行为。
  • 快速学习和适应:Dolphins 能通过情境学习进行未来预测。能够回答“如果”式问题。
  • 反射和错误恢复:通过学习规则,反思原有预测,重新给出修改后的预测。
  • 详细对话:可以和 Dolphins 对话,了解 Dolphins 正在关注什么,例如一些场景细节。也可以得到安全驾驶的知识。

特征

Dolphins 的独特特征可概括为两个方面:
(1) 能够提供对复杂和长尾开放世界驾驶场景的综合理解,并解决一系列AV任务;
(2) 出现了人类般的能力,包括通过上下文学习进行无梯度即时适应以及通过反思进行错误恢复。

局限性和未来工作</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值