大模型 | MMedAgent：学习使用多模态代理的医疗工具

最新推荐文章于 2025-03-29 20:43:30 发布

大模型微调部署

最新推荐文章于 2025-03-29 20:43:30 发布

阅读量1.1k

点赞数 23

文章标签：学习人工智能大模型 AI大模型 ai LLM 多模态

本文链接：https://blog.csdn.net/star_nwe/article/details/142620925

版权

一、研究背景

研究问题：这篇文章要解决的问题是如何在医疗领域中利用多模态大型语言模型（MLLMs）进行高效的任务处理。尽管MLLMs在多个任务上取得了显著进展，但它们在跨模态和多任务的通用性方面仍有限。
研究难点：该问题的研究难点包括：MLLMs在处理不同医疗影像模态的多种任务时表现有限；现有的通用模型无法有效地扩展到新任务或更多模态；专业模型虽然在特定任务上表现出色，但不能与通用模型相媲美。
相关工作：该问题的研究相关工作有：Singhal等人（2023）策划了MultiMedQA，一个针对医学问答的数据集；Med-PaLM利用基于PaLM的指令提示调优来适应医学领域；最近的研究在多模态对话能力上取得了进展，但这些研究大多集中在自然领域，尚未探索医学领域的应用。

二、研究方法

这篇论文提出了MMedAgent，第一个专门用于医学领域的多模态AI代理。具体来说，

系统架构：MMedAgent由两个部分组成：（1）一个指令多模态医疗代理（Planner和结果聚合器）；（2）一系列针对代理定制的医疗工具，每个工具针对医学领域的特定任务。

工作流程：工作流程包括四个步骤：
（1）用户提供指令和医疗图像；
（2）MLLM作为行动规划器，理解指令和图像并生成格式化的指令以调用特定工具；
（3）工具执行并返回结果；
（4）MLLM将工具的输出与用户指令和图像结合，生成最终答案。
指令调优：为了确保MMedAgent同时作为行动规划器和结果聚合器，采用了统一的对话格式。具体来说，MMedAgent在接收到用户输入后，生成三个部分：Thought（确定是否需要外部工具）、API Name和API Params（API调用的名称和参数）、Value（由MLLM聚合的工具输出和自然语言响应）。

工具集成：MMedAgent集成了六个工具，涵盖七个代表性任务：定位、分割、分类、结合定位的分割、医学报告生成、检索增强生成和视觉问答。每个工具都针对特定任务进行了优化。

三、实验设计

数据收集：收集了多个医学图像分割数据集，包括FLARE2021、WORD、BRATS、Montgomery County X-ray Set、VinDr-CXR和多模态细胞分割数据集。这些数据集涵盖了不同的模态、器官或疾病。
工具训练：对Grounding DINO进行了微调，以适应医学影像领域。使用COCO和Flickr30k数据集保持模型检测常见物体的能力。其他工具如MedSAM、BiomedCLIP、ChatCAD+等也进行了相应的训练和优化。
指令调优数据生成：生成了48K指令调优数据，包括15K增强的VQA指令、10K检测数据、3K RAG数据、5K分割、分类、MRG和G-Seg数据。数据来源如表1所示。

四、结果与分析

任务性能：MMedAgent在各种任务上显著优于所有其他基线方法。整体得分比LLaVA-Med高出1.8倍。在器官定位、疾病定位和MRG任务上，得分超过100%，表明MMedAgent在这些任务上超过了GPT-4o。

开放式医学对话：在开放式医学对话任务中，MMedAgent在两类问题（对话问题和详细描述问题）上均表现优于LLaVA-Med，除了MRI领域。

工具利用率：经过15轮训练，MMedAgent的工具选择准确率达到100%，表明其能够无误地选择合适的工具。

新工具适应性：模拟了一个名为“伪工具”的新工具，并在2K步内将新工具的选择准确率提高到100%，而不影响旧工具的性能。

五、总体结论

提出了MMedAgent，第一个能够无缝利用各种医疗工具来处理跨模态医学任务的多模态AI代理。通过构建指令调优数据集，MMedAgent学会了调用各种医疗工具并聚合工具结果。综合实验表明，MMedAgent在许多医学任务上显著优于开源基线方法，甚至超过了GPT-4o。此外，MMedAgent能够高效地整合新工具，同时保持激活先前学习工具的能力。

六、论文评价

优点与创新

提出了第一个多模态医疗AI代理（MMedAgent）：该代理能够无缝地整合各种医疗工具，处理不同医学影像模态的广泛医疗任务。
创建了第一个开源指令调优数据集：用于训练多模态LLM作为动作规划器。
自适应多模态医疗工具：开发了专门的数据集，使现有的定位和分割工具适应医疗领域。
广泛的实验验证：MMedAgent在各种医疗任务上显著优于现有的开源SOTA方法和闭源模型GPT-4o。
高效的工具更新和整合能力：MMedAgent能够高效地学习新工具，并在引入新工具时保持激活先前学习工具的能力。

不足与反思

任务模态和数量的限制：当前工作仅限于五种模态的七个任务。由于需要广泛的领域知识以及涉及的医疗任务的复杂性和多样性，更多专门化的工具应该被纳入工具列表中。然而，模型的可扩展性允许未来包含更强大的工具。
更多关于不同骨干的消融研究：当前骨干基于LLaVA-Med，但最近在医疗领域提出了多个通用LLM，这些模型可能被用来构建更强的MMedAgent。

七、关键问题及回答

问题1：MMedAgent在工具选择和集成方面有哪些独特的机制？

工具选择机制：MMedAgent在接收到用户输入后，首先生成三个部分：Thought（确定是否需要外部工具）、API Name和API Params（API调用的名称和参数）、Value（由MLLM聚合的工具输出和自然语言响应）。通过这种机制，MMedAgent能够动态选择、激活和执行正确的工具。
工具集成：MMedAgent集成了六个工具，涵盖七个代表性任务：定位、分割、分类、结合定位的分割、医学报告生成、检索增强生成和视觉问答。每个工具都针对特定任务进行了优化，例如，Grounding DINO用于定位任务，MedSAM用于分割任务，BiomedCLIP用于分类任务等。
新工具适应性：MMedAgent能够在2K步内将新工具的API名称无缝替换为旧工具，且不影响旧工具的性能。此外，通过少量指令调优数据即可扩展MMedAgent以处理新任务。这种机制使得MMedAgent能够灵活地适应新的工具和任务，而无需从头开始训练。

问题2：MMedAgent在开放式医学对话任务中的表现如何？

在开放式医学对话任务中，MMedAgent在两类问题（对话问题和详细描述问题）上均表现优于LLaVA-Med，除了MRI领域。具体来说，MMedAgent在对话问题上的得分为54.49，在详细描述问题上的得分为53.30，而LLaVA-Med在这两类问题上的得分分别为53.30和38.90。这表明MMedAgent在处理开放式医学对话任务时具有较高的准确性和相关性。

问题3：MMedAgent在实验中使用了哪些数据集进行训练和评估？

训练数据：MMedAgent的训练数据包括多个医疗图像分割数据集，如FLARE2021、WORD、BRATS、Montgomery County X-ray Set、VinDr-CXR和多模态细胞分割数据集。这些数据集涵盖了不同的模态、器官或疾病，提供了丰富的训练样本。
指令调优数据：生成了48K指令调优数据，包括15K增强的VQA指令、10K检测数据、3K RAG数据、5K分割、分类、MRG和G-Seg数据。数据来源包括PMC文章和其他公开数据集，确保了数据的多样性和覆盖面。
评估数据：评估数据集包括70个多样化的问题，涉及10个随机选择的Merck Manual概念和60个未见过的图像。这些图像来自不同的任务和模态，如器官定位、疾病定位、细胞定位、X光图像的医学报告生成等。通过这些评估数据，可以全面衡量MMedAgent在不同任务和模态上的表现。