点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
扫描下方二维码,加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!
上海科技大学携手美团、华院大数据共同研发的「MLLM-Tool」项目,成功地让大语言模型能够感知多模态数据并推荐正确的外部工具来满足用户需求,在7B和13B规模的模型上推荐准确率分别达到了84%和88%。这一工作实现了一个更聪明的多模态工具智能体,而且项目中的系统、模型、数据均已开源。
性能最好的多模态tool agent!收下你的AI Siri!输入一张图,一段语音,一个视频,不用再写小作文描述里面内容,模型自动去理解,直接能满足你的需求,解放你的双手!
近期,上科大宣布开源「MLLM-Tool」项目,通过「MLLM-Tool」,用户只需要输入数据(文本/图像/视频/音频),加上简短的一句话的任务描述,甚至是很宽泛的任务,系统也能对用户意图进行补全修正,确保输出的工具满足用户需求。
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
论文:https://arxiv.org/abs/2401.10727
代码:https://github.com/MLLM-Tool/MLLM-Tool
研究背景
最近,大语言模型(LLM)在文本理解和文本生成的相关任务中都取得了令人惊叹的性能和成就。然而,由于训练数据的时间有效性和上下文存储的限制,如何让大语言模型掌握调用外部工具的能力变得至关重要。通过学习使用工具,大语言模型能够访问更大更即时的数据库,从而能够显著增强其能力,为人类生活提供更大的便利性。
尽管在这个研究方向上已经有一些工作进行了探索,但是它们仅限于纯文本输入。这可能导致模型对指令的误解,尤其是当指令无法详细且准确地表达用户的真实意图。同时考虑到用户在进行对话交互的时通常具有懒惰的倾向,他们希望智能体能够直接理解多模态数据并分析意图,而不必对其他非文本模态的数据进行详细的文本描述。因此,具备多模态的感知能力对于进一步增强大语言模型对于外部工具API的功能理解和正确调用是必不可少的。
由此,作者提出了MLLM-Tool:,一个集成了多模态的编码器和开源的大语言模型的系统,作为用户与应用程序之间高效沟通的桥梁。同时,作者还构建了一个包含多模态数据的指令-API数据集ToolMMBench, 涵盖了HuggingFace网站上筛选出的932个高质量的API,并收集了超过4000条的非文本模态数据和超过11K的指令。
数据集
作者构建了一个超过11,000个指令的数据集ToolMMBench(多模态+指令-API对), 整个数据集构建过程主要包括API收集和归类,指令生成和多模态数据收集,相同功能API之间的指令匹配三个步骤,整个数据集的收集过程耗时超过了2000人时。
API收集和归类:作者首先记录了所有HuggingFace平台的模型卡片,并从中筛选出932个高质量的API,对于每个模型,记录并提取了关键信息,包括模型功能所属的任务领域、API名称、API调用、参数、示例代码和描述。这些API,包括文本、图像、音频、视频四种模态。由于HuggingFace平台的功能分类规则较为粗糙,不便于后续对API进行功能的划分,作者还提出了新的多层级的任务分类系统,并重新归类了筛选后的API。
指令生成:作者先提出了四种范式的模板,再利用GPT-4,根据每个API支持的功能来引导生成相对应的指令, 并对生成的指令进行人工检查和优化。作者重点强调,这些指令中不能出现API的名称或者任何相关的提示信息。对于多模态任务,根据生成的指令,作者从互联网或者相应的数据集中搜索内容相匹配的多模态数据。
由于该工作重点在于通过多模态信息的输入来消除文本指令的歧义性,文章中还提出了5种文本指令歧义性的情况,包括模型使用的数据来自不同的领域,数据集的类别分布和粗细粒度,输入图像的成像质量,模型支持的输入条件,和其他(例如输入音频的语言)。在这些情况下,作者指出,工具的正确选择需要系统不仅能够理解指令,感知多模态输入信息,并且需要自动判断多模态输入的详细情况。例如对于自动语音识别任务中,在没有指令的提示的情况下,系统在识别音频的内容之前,首先需要识别音频使用的语言,结合语言和任务,选择正确的API。
指令匹配:由于数据集中包含许多具有相同或相似功能的API,作者结合了之前的分类系统的结果,来确定对于每条指令相对应的,满足指令的严格功能边界的API的数量。最终形成的数据集,对于其中每个指令存在对应一个或多个合适的API解决方案。
方法
在本工作中,模型的主要模块包括多模态编码器、用于特征对齐的表征层和大语言模型, 其中,音频编码器(Audio Encoder)、图像编码器(Image Encoder)和视频编码器(Video Encoder)均利用预训练好的ImageBind模型。
为了微调大语言模型,作者将数据转换成用户与智能体对话形式。每条数据都视为一轮对话,即用户输入指令和多模态数据,智能体回复满足条件的API信息。接着基于构建的指令集,对LLama、Vicuna、Llama2、Llama2-Chat等热门开源模型的7B,13B模型上进行调优,执行指令微调步骤。
为了减少可训练参数的数量,作者只训练用来连接多模态编码器和大语言模型的表征层,以及大语言模型的注意力模块上的额外LoRA权重。
在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!
多模态学习交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态学习微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看