更聪明的多模态工具智能体!上科大与美团、华院大数据提出MLLM-Tool Agent系统,模型、数据全部开源!...

上海科技大学与美团、华院大数据合作的MLLM-Tool项目展示了大语言模型处理多模态数据的能力,通过84%和88%的推荐准确率,提升了模型理解和工具调用的准确性。项目开源,旨在解决大语言模型对多模态指令的理解问题,为用户提供更智能的工具服务。
摘要由CSDN通过智能技术生成

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态学习】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

32fb5a35ce69a358466d6f144fb3b5ae.jpeg

上海科技大学携手美团、华院大数据共同研发的「MLLM-Tool」项目,成功地让大语言模型能够感知多模态数据并推荐正确的外部工具来满足用户需求,在7B和13B规模的模型上推荐准确率分别达到了84%和88%。这一工作实现了一个更聪明的多模态工具智能体,而且项目中的系统、模型、数据均已开源

b0adfb0e61753de44434eecdc20df36e.png

性能最好的多模态tool agent!收下你的AI Siri!输入一张图,一段语音,一个视频,不用再写小作文描述里面内容,模型自动去理解,直接能满足你的需求,解放你的双手!

近期,上科大宣布开源「MLLM-Tool」项目,通过「MLLM-Tool」,用户只需要输入数据(文本/图像/视频/音频),加上简短的一句话的任务描述,甚至是很宽泛的任务,系统也能对用户意图进行补全修正,确保输出的工具满足用户需求。    

MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

论文:https://arxiv.org/abs/2401.10727

代码:https://github.com/MLLM-Tool/MLLM-Tool

研究背景

最近,大语言模型(LLM)在文本理解和文本生成的相关任务中都取得了令人惊叹的性能和成就。然而,由于训练数据的时间有效性和上下文存储的限制,如何让大语言模型掌握调用外部工具的能力变得至关重要。通过学习使用工具,大语言模型能够访问更大更即时的数据库,从而能够显著增强其能力,为人类生活提供更大的便利性。

尽管在这个研究方向上已经有一些工作进行了探索,但是它们仅限于纯文本输入。这可能导致模型对指令的误解,尤其是当指令无法详细且准确地表达用户的真实意图。同时考虑到用户在进行对话交互的时通常具有懒惰的倾向,他们希望智能体能够直接理解多模态数据并分析意图,而不必对其他非文本模态的数据进行详细的文本描述。因此,具备多模态的感知能力对于进一步增强大语言模型对于外部工具API的功能理解和正确调用是必不可少的。

11ff9c6318d77763440c0a3c03e44c3b.png

由此,作者提出了MLLM-Tool:,一个集成了多模态的编码器和开源的大语言模型的系统,作为用户与应用程序之间高效沟通的桥梁。同时,作者还构建了一个包含多模态数据的指令-API数据集ToolMMBench, 涵盖了HuggingFace网站上筛选出的932个高质量的API,并收集了超过4000条的非文本模态数据和超过11K的指令。

30fc6729c9445955d2d237fb6d6480a6.png

数据集

作者构建了一个超过11,000个指令的数据集ToolMMBench(多模态+指令-API对), 整个数据集构建过程主要包括API收集和归类,指令生成和多模态数据收集,相同功能API之间的指令匹配三个步骤,整个数据集的收集过程耗时超过了2000人时。   

86e40d8966ffc5e62c53d151dd9ca560.png

API收集和归类:作者首先记录了所有HuggingFace平台的模型卡片,并从中筛选出932个高质量的API,对于每个模型,记录并提取了关键信息,包括模型功能所属的任务领域、API名称、API调用、参数、示例代码和描述。这些API,包括文本、图像、音频、视频四种模态。由于HuggingFace平台的功能分类规则较为粗糙,不便于后续对API进行功能的划分,作者还提出了新的多层级的任务分类系统,并重新归类了筛选后的API。

指令生成:作者先提出了四种范式的模板,再利用GPT-4,根据每个API支持的功能来引导生成相对应的指令, 并对生成的指令进行人工检查和优化。作者重点强调,这些指令中不能出现API的名称或者任何相关的提示信息。对于多模态任务,根据生成的指令,作者从互联网或者相应的数据集中搜索内容相匹配的多模态数据。    

由于该工作重点在于通过多模态信息的输入来消除文本指令的歧义性,文章中还提出了5种文本指令歧义性的情况,包括模型使用的数据来自不同的领域,数据集的类别分布和粗细粒度,输入图像的成像质量,模型支持的输入条件,和其他(例如输入音频的语言)。在这些情况下,作者指出,工具的正确选择需要系统不仅能够理解指令,感知多模态输入信息,并且需要自动判断多模态输入的详细情况。例如对于自动语音识别任务中,在没有指令的提示的情况下,系统在识别音频的内容之前,首先需要识别音频使用的语言,结合语言和任务,选择正确的API。

指令匹配:由于数据集中包含许多具有相同或相似功能的API,作者结合了之前的分类系统的结果,来确定对于每条指令相对应的,满足指令的严格功能边界的API的数量。最终形成的数据集,对于其中每个指令存在对应一个或多个合适的API解决方案。

方法    

2e1ada87c05f20c2e561cd6a1d9a2aa5.png

在本工作中,模型的主要模块包括多模态编码器、用于特征对齐的表征层和大语言模型, 其中,音频编码器(Audio Encoder)、图像编码器(Image Encoder)和视频编码器(Video Encoder)均利用预训练好的ImageBind模型。

为了微调大语言模型,作者将数据转换成用户与智能体对话形式。每条数据都视为一轮对话,即用户输入指令和多模态数据,智能体回复满足条件的API信息。接着基于构建的指令集,对LLama、Vicuna、Llama2、Llama2-Chat等热门开源模型的7B,13B模型上进行调优,执行指令微调步骤。

为了减少可训练参数的数量,作者只训练用来连接多模态编码器和大语言模型的表征层,以及大语言模型的注意力模块上的额外LoRA权重。

b71e486b6b4740a5dffe29ccaa6ef632.png

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

多模态学习交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态学习微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值