上海交通大学王延峰教授与谢伟迪教授团队创建了一个包含 255 亿 tokens 的多语言医疗语料库 MMedC,开发了一个覆盖 6 种语言的多语言医疗问答评测标准 MMedBench,同时还构建了一个 8B 的基座模型 MMed-Llama 3。
随着医疗信息化的普及,医疗数据从规模到质量都实现了不同程度的提升。进入大模型时代以来,面向精准医疗、诊断辅助、医患交互等不同场景的各类大模型层出不穷。
但值得注意的是,正如通用模型所面临的多语言能力滞后问题一样,**医疗大模型大多依赖于英语的基座模型,同时也受限于多语言医疗专业数据的匮乏、分散,导致模型在处理非英语任务时的表现欠佳。**即便是医疗相关的开源文本数据,也主要以高资源语种为主,所支持的语种十分有限。
从模型训练的角度来看,多语言医疗模型能够更加全面地利用全球的数据资源,甚至是扩展到多模态训练数据,从而提升模型对其他模态信息的表征质量。从应用的层面来讲,多语言医疗模型能够帮助缓解医患之间的语言沟通障碍,在医患交互、远程诊断等多场景下,提升诊疗的准确性。
尽管目前的闭源模型展现出了很强的多语言性能,但当下开源领域仍存在多语言医疗模型匮乏的问题,上海交通大学王延峰教授与谢伟迪教授团队创建了一个包含 255 亿 tokens 的多语言医疗语料库 MMedC,开发了一个覆盖 6 种语言的多语言医疗问答评测标准 MMedBench,同时还构建了一个 8B 的基座模型 MMed-Llama 3,在多项基准测试中超越了现有的开源模型,更加适配医疗应用场景。
相关研究成果以「Towards building multilingual language model for medicine」为题,发表于 Nature Communications。
值得一提的是,HyperAI超神经官网的教程版块现已上线「一键部署 MMed-Llama-3-8B」!
一键部署地址:
https://go.hyper.ai/yh97P
研究亮点:
* MMedC 是首个专门针对多语言医学领域构建的语料库,同时也是迄今为止最广泛的多语言医学语料库
* 在 MMedC 上的自回归训练有助于提升模型性能,在全面微调评估下,MMed-Llama 3 的性能为 67.75,而 Llama 3 为 62.79
* MMed-Llama 3 在英文基准测试中表现出了最先进的性能,显著超过了 GPT-3.5
**论文地址:
**_https://www.nature.com/articles/s41467-024-52417-z
_**项目地址:
**https://github.com/MAGIC-AI4Med/MMedLM
多语言医学语料库 MMedC:255 亿 tokens,覆盖 6 种主要语言
研究人员创建的多语言医学语料库 MMedC (Multilingual Medical Corpus),**覆盖了英语、中文、日语、法语、俄语和西班牙语这 6 类语种,**其中英语所占比例最大,为 42%,中文占比约为 19%,而俄语所占比例最小,仅为 7%。
MMedC 包含 255 亿 tokens,从 4 个数据源收集
具体而言,研究人员从 4 个不同的来源收集了 255 亿与医学相关的 tokens。
首先,研究人员设计了一个自动管道,从广泛的多语言语料库中过滤医学相关内容;其次,团队收集了大量不同语言的医学教科书,并通过光学字符识别 (OCR)、启发式数据过滤 (heuristic data filtering) 等方法将其转换为文本;第三,为了保证医学知识的广泛性,研究人员搜集了多个国家开源医学网站上的文本,以权威和全面的医学信息丰富语料库;最后,研究人员整合了现有的小型医学语料库,进一步增强了 MMedC 的广度和深度。
研究人员表示,MMedC 是首个专门针对多语言医学领域构建的预训练语料库,同时也是迄今为止最广泛的多语言医学语料库。
MMedC 一键下载地址:
https://go.hyper.ai/EArvA
多语言医学问答基准 MMedBench:包含超 5 万对医学多项选择问答
为了更好地评估多语言医学模型的性能,研究人员进一步提出了多语言医学问答基准 MMedBench (multilingual medical Question and Answering Benchmark),汇总了 MMedC 所覆盖的 6 种语言现有的医学多项选择问答题,并利用 GPT-4 为 QA 数据增加了归因分析的部分。
最终,MMedBench 包含 53,566 对 QA,跨越了 21 个医学领域,例如内科、生物化学、药理学和精神病学等。研究人员将其划分为 45,048 对训练样本和 8,518 对测试样本。同时,为了进一步检验模型的推理能力,研究人员选择了一个由 1,136 对 QA 组成的子集,每对都附带经过人工验证的推理语句,作为更专业的推理评估基准。
MMedBench 一键下载地址:
https://go.hyper.ai/D7YAo
值得注意的是,答案中包含的推理部分平均由 200 个 tokens 组成,这一较大的标记数量一方面有助于训练语言模型,使其接触到了较长的推理过程;另一方面能够评估模型生成和理解冗长、复杂推理的能力。
MMedBench 训练集与测试集的基础数值统计信息
多语言医学大模型 MMed-Llama 3:小而美,超越 Llama 3、接近 GPT-4
研究人员基于 MMedC 进一步训练了锚定医学领域知识的多语言模型,分别是 MMedLM(基于 InternLM)、MMedLM 2(基于 InternLM 2)和 MMed-Llama 3(基于 Llama 3)。随后,研究人员在 MMedBench 基准上对模型性能进行了评估。
首先,在多语言多选题与回答任务中,面向医疗领域的大模型往往在英语中表现出较高准确率,但在其他语种下却存在性能下降,这一现象在 MMedC 上的自回归训练后所有改善。例如,在全面微调评估下,MMed-Llama 3 的性能为 67.75,而 Llama 3 为 62.79。
在全面微调评估下,在 MMedBench 上进行的多项选择准确性评估
类似的观察结果也适用于 PEFT(参数高效微调)设置,即 LLMs 后期表现更好,而在 MMedC 上的训练会带来显著的增益。因此,MMed-Llama 3 是极具竞争力的开源模型,其 8B 参数接近 GPT-4 的 74.27 精确度。
Zero-shot 评估下,GPT-4 的多项选择准确性平均值为 74.27
此外,该研究还组建了一个五人评审组,进一步对模型生成的答案解释进行了人工评估,评审组的成员来自上海交通大学及北京协和医学院。
值得注意的是,MMed-Llama 3 在人工评估和 GPT-4 评估中均获得了最高分,尤其是在 GPT-4 评级中的表现,更是明显优于其他模型,比排名第二的模型 InternLM 2 高出 0.89 分。
分数条代表不同指标下的排名分数
橘色为人工评估得分,粉色为 GPT-4 评分
为了在英语基准测试上与现有的大型语言模型进行公平比较,研究人员还对 MMed-Llama 3 进行英文指令微调,并在 4 个常用的医疗多项选择问答基准上进行了评估测试,分别是 MedQA、MedMCQA、PubMedQA 和 MMLU-Medical。
结果显示,MMed-Llama 3 在英文基准测试中表现出了最先进的性能,在 MedQA、MedMCQA 和 PubMedQA 上分别获得了 4.5%、4.3% 和 2.2% 的性能增益。同样,在 MMLU 上,其甚至远远超过了 GPT-3.5,具体数据如下图所示。
模型在英语基准测试上的评估
一键部署 MMed-Llama 3:突破语言障碍,准确回答常识性医疗问题
如今,大模型已经在医疗影像分析、个性化治疗、患者服务等多个细分场景中实现了成熟应用。聚焦患者的使用场景,面对挂号难、诊断周期长等实际问题,加之医疗模型的准确率持续提升,越来越多的患者会在身体出现轻微不适时,寻求「大模型医生」的帮助,只需要清晰、明确地输入症状,模型便能够提供相应的就医指导。而王延峰教授与谢伟迪教授团队所提出的 MMed-Llama 3 更是通过海量、优质的医疗语料库,进一步丰富了模型的医疗知识,同时还突破了语言障碍,支持多语言问答。
HyperAI超神经的教程版块现已上线「一键部署 MMed-Llama 3」,以下是详细分步教程,手把手教你创建自己的「AI 家庭医生」。
一键部署 MMed-Llama-3-8B:
https://hyper.ai/tutorials/35167
Demo 运行
1. 登录 hyper.ai,在「教程」页面,选择「一键部署 MMed-Llama-3-8B」,点击「在线运行此教程」。
2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3. 点击右下角「下一步:选择算力」。
4. 页面跳转后,选择「NVIDIA GeForce RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_QZy7
5. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。
效果展示
打开 Demo 界面后,我们可以将直接描述症状,并点击提交。如下图所示,当询问「嗓子疼、打喷嚏」的症状是否是感冒时,模型会先介绍感冒的常见症状,并根据自述症状提供诊断。值得关注的是,模型也会提醒用户,「回答无法代替专业医生的资讯或诊疗」。
但需要注意的是,不同于商用模型经过了严格的指令微调、偏好对齐、安全控制,MMed-Llama 3 更多是一个基座模型,更加适合结合下游任务数据进行任务特异的微调,而非直接进行零样本问诊,使用时请务必注意模型的使用边界避免相关的直接临床使用。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。