MMedAgent：专为医疗领域设计的多模态 AI 智能体，支持医学影像处理、报告生成等多种医疗任务

原创

于 2025-01-03 23:32:27 发布 · 777 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #人工智能开源

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持多种医疗任务，包括医学影像处理、报告生成等。
技术：基于多模态大型语言模型（MLLM），集成多种医疗工具。
性能：在多个医疗任务上优于现有开源方法，甚至超过闭源模型 GPT-4o。

正文（附运行示例）

MMedAgent 是什么

公众号: 蚝油菜花 - MMedAgent

MMedAgent 是专为医疗领域设计的多模态AI智能体，通过整合各种开源医疗模型来管理多种医疗任务。系统包括一个指令调整的多模态大型语言模型（MLLM），作为行动规划器和结果聚合器，以及一套为代理量身定制的医疗工具集合，每个工具都针对医疗领域的特定任务。

MMedAgent 能处理包括 MRI、CT、X 射线等多种医学成像模式，支持临床实践中遇到的多种数据类型。通过理解用户指令和医学影像，生成格式化指令调用特定工具，聚合工具的输出以准确、全面地回复用户。MMedAgent 在多个医疗任务上的性能优于现有的开源方法，甚至超过了闭源模型 GPT-4o。

MMedAgent 的主要功能

多模态任务处理：支持接地、分割、分类、医学报告生成（MRG）和检索增强生成（RAG）等多种语言和多模态任务。
医疗影像支持：支持 MRI、CT 和 X 射线等多种医学成像模式，适应临床实践中遇到的各种数据类型。
工具集成与调用：集成了多个工具，涵盖七个代表性的医疗任务，能根据用户指令选择合适的工具进行调用。
指令微调：通过创建指令调整数据集，训练多模态大型语言模型（MLLM）作为动作规划器，理解和执行用户指令。
结果聚合：MLLM 作为结果聚合器，将工具的输出与用户的指令和图像结合，生成最终答案。
端到端训练：通过自回归目标对生成的序列进行端到端训练，确保模型能使用正确的工具并根据工具结果回答问题。

MMedAgent 的技术原理

系统架构：由两个主要部分组成：一个指令调整的多模态大型语言模型（MLLM），作为行动规划器和结果聚合器；以及为代理量身定制的医疗工具集合，每个工具都针对医疗领域的特定任务。
工作流程：包括四个步骤：用户提供指令和医疗图像；MLLM 理解指令和图像，生成格式化指令以调用特定工具；执行工具并返回结果；MLLM 将工具的输出与用户指令和图像结合，生成最终答案。
指令微调：采用统一的对话格式来确保其作为行动规划器和结果聚合器的角色。在接收到用户输入后，MMedAgent 生成三个部分：Tho

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。