高效持续预训练：GPT4 水平的 8B 医疗大模型，解决微调收敛不稳定

Debroon

已于 2024-08-21 14:24:44 修改

阅读量500

点赞数 23

分类专栏：医学大模型：便利安全可控文章标签：人工智能深度学习机器学习

于 2024-08-21 14:16:16 首次发布

本文链接：https://blog.csdn.net/qq_41739364/article/details/141389469

版权

医学大模型：便利安全可控专栏收录该内容

127 篇文章 32 订阅

订阅专栏

高效持续预训练：GPT4 水平的 8B 医疗大模型，解决微调收敛不稳定

提出背景
性能波动

分析性关联图
精细化分析
关联创意

论文：Efficient Continual Pre-training by Mitigating the Stability Gap

代码：https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

提出背景

本文旨在解决大模型在持续预训练过程中出现的"稳定性差距"问题。

具体来说，当LLMs适应新领域语料库时，会经历一个性能先下降后恢复的过程，这导致了预训练效率低下、领域性能提升缓慢以及通用任务知识的潜在丢失。

文章提出了"高效持续预训练"方法，通过三个策略来缓解这一问题，从而实现更快速、高效地提升模型在新领域（如医疗领域）的性能，同时保持其通用能力。

假设我们有一个通用的大型语言模型，现在我们想让它成为一个医学专家。

传统方法：

收集大量医学文献和数据（比如50亿个词）
直接用这些数据对模型进行一轮完整的训练
结果：
- 训练时间：假设需要1个月
- 性能变化：第一周性能可能下降，之后慢慢提升
- 最终医学能力：有所提升，但效率不高
- 通用能力：可能有所下降

本文方法：

从50亿个词中精选出5亿个高质量的医学词汇
用这5亿词进行多轮训练（比如4轮）
在训练过程中，混合一些原始的通用数据
结果：
- 训练时间：约12天（原来的40%）
- 性能变化：几乎没有明显下降，持续提升
- 最终医学能力：显著提升，甚至超过传统方法
- 通用能力：基本保持不变

具体成果：

在医学任务上的表现从36.2%提升到40.7%
训练时间和资源消耗减少了60%
模型在保持通用能力的同时，成为了一个更好的"医学专家"

本文方法通过更智能的数据选择和训练策略，在更短的时间内取得了更好的效果，同时避免了传统方法中的性能波动和知识遗忘问题。

性能波动

医学微调不稳定，尽量不要自己微调。

初始性能下降：
- 当模型开始学习新的医学知识时，它可能会暂时"忘记"一些通用知识或之前学到的医学知识。
- 例如：模型原本能正确回答简单的医学问题，但在学习复杂的专科知识时，可能会在简单问题上出错。
不稳定的学习曲线：
- 在学习过程中，模型的性能可能会出现起伏。
- 例如：某天模型在诊断任务上表现很好，但第二天可能在同类任务上表现下降。
任务间的性能不一致：
- 模型在某些医学任务上的性能提升，但在其他任务上可能会下降。
- 例如：模型在心脏病诊断上变得很擅长，但在皮肤病诊断上的能力可能会下降。
过度适应特定数据：
- 模型可能会过度拟合某些特定的医学数据集，导致泛化能力下降。
- 例如：模型在训练数据中的罕见病例上表现极佳，但在常见病例上反而表现不佳。
知识整合不稳定：
- 在整合新旧知识的过程中，模型的表现可能会不稳定。
- 例如：模型在学习新的治疗方法时，可能会暂时混淆或错误应用旧的治疗知识。

在这里插入图片描述
Llama-3-Physician-8B-insturct在医疗问答任务上明显优于其它同尺寸的开源模型，并且超过了闭源的GPT-3.5-turbo模型；平均医疗问答任务表现也接近GPT-4.

Llama-3-Physician-8B-insturct 在医疗分类，关系抽取，推理和总结任务上都取得了优异表现，且明显超过GPT-4表现。

训练数据是：50 B ，从 Refined-Web 数据集。

https://huggingface.co/datasets/tiiuae/falcon-refinedweb

在这里插入图片描述
数据都是英文的，llama3中文就不好，那这个GPT4 水平的 8B 医疗大模型，中文就不好。

分析性关联图

想象你是一个精通英语的人，突然要去法国生活。

这就像大模型要学习新的领域知识。

问题：语言适应困难（图中的"稳定性差距"）
- 刚到法国时，你会觉得很不适应（这就是"训练分布偏移"）
- 一开始你可能连简单的对话都变得困难了（这是"临时性能下降"）
- 慢慢地，你会重新找回语言感觉，甚至学会法语（这是"恢复阶段"）
影响：
- 你说法语的能力慢慢提高（"领域性能"提升）
- 但可能一开始会影响你的英语水平（"通用任务知识"受影响）
解决方法：聪明的学习方法（“高效持续预训练”）
研究者想出了三个小技巧：
- 技巧1：反复学习常用短语，而不是一次性学很多（“对子集进行多轮次预训练”）
- 技巧2：先学最有用的词汇和句子（“在高质量子语料上预训练”）
- 技巧3：保持英语学习，同时学法语（“使用类似于预训练数据的混合比例”）
效果：
- 你的整体语言能力提高了
- 法语进步很快
- 英语水平也没有下降
实验：
研究者用这个方法训练AI学习医学知识：
- 一个叫OpenLlama-3B的AI变得更懂医学了
- 另一个更厉害的AI（Llama-3-8B）经过训练后成为了医学专家（Llama-3-Physician）
- 这个医学专家AI甚至可以和最顶尖的AI（GPT-4）相比
成果：
- OpenLlama-3B在医学测试中的分数从36.2分提高到了40.7分
- 更厉害的是，这种进步只用了原来40%的学习时间

这个新方法就像是为AI找到了一个既快又省力的学习新知识的方法，让AI能更快地适应新领域，比如医疗，同时还能保持原有的知识。

这就像你不仅快速学会了法语，还保持了很好的英语水平，而且只花了原来一半不到的时间。

精细化分析

【本文方法】：高效持续预训练

目的：提高大型语言模型在新领域（如医学）的适应能力和性能

问题：解决传统微调方法中的稳定性差距问题，包括性能波动、知识遗忘和计算资源浪费

解法：高效持续预训练策略

解法拆解：

子解法1：对数据子集进行多轮次预训练（因为数据质量和重复学习特征）
- 之所以用多轮次预训练子解法，是因为高质量数据的重复学习可以加深模型对关键知识的理解。
- 例子：就像医学生反复学习核心解剖知识，而不是一次性浏览所有医学教材。
子解法2：在高质量子语料上预训练（因为数据质量特征）
- 之所以用高质量子语料预训练子解法，是因为精选的高质量数据可以提高学习效率和效果。
- 例子：医生专注学习最新、最权威的医学期刊，而不是阅读所有相关的文章。
子解法3：使用类似于预训练数据的混合比例（因为知识保持特征）
- 之所以用类似预训练数据混合比例的子解法，是因为这可以帮助模型保持原有的通用知识。
- 例子：医生在专科训练时仍然保持对一般医学知识的复习和应用。

这些子解法的逻辑链是一个决策树网络：

高效持续预训练策略
|
├── 是否有高质量数据子集？
|   ├── 是 -> 使用子解法2：在高质量子语料上预训练
|   └── 否 -> 继续使用全部数据集
|
├── 是否有计算资源进行多轮训练？
|   ├── 是 -> 使用子解法1：对数据子集进行多轮次预训练
|   └── 否 -> 考虑单轮训练或其他优化方法
|
└── 是否需要保持通用能力？
    ├── 是 -> 使用子解法3：使用类似于预训练数据的混合比例
    └── 否 -> 专注于新领域数据训练

这个决策树网络允许根据具体情况灵活选择和组合子解法。

例如，如果有高质量数据子集和足够的计算资源，可以同时应用子解法1和子解法2。

如果还需要保持模型的通用能力，则可以进一步应用子解法3。

这种灵活的组合可以根据不同的需求和资源限制来优化训练策略。

关联创意

组合:
创新点: 将持续学习和数据筛选技术相结合。
具体方案: 开发一个动态数据筛选系统,在持续学习过程中实时评估和筛选最有价值的训练数据,从而实现更高效的学习。
拆开:
创新点: 将医学知识拆分为多个专科领域进行独立学习。
具体方案: 设计一个模块化的学习架构,每个模块专注于一个医学专科(如心脏病学、神经病学等),允许模型根据需求灵活组合不同专科知识。
转换:
创新点: 将模型的错误预测转换为有价值的学习资源。
具体方案: 开发一个错误分析系统,自动收集和分析模型的错误预测,并将这些错误转化为新的学习目标,促进模型的持续改进。
借用:
创新点: 借用人类医学教育中的案例学习方法。
具体方案: 设计一个基于案例的学习系统,模拟人类医生的学习过程,通过分析和学习大量真实医疗案例来提升模型的诊断能力。
联想:
创新点: 联想医学知识图谱与自然语言处理技术。
具体方案: 构建一个结合医学知识图谱和自然语言处理的混合学习系统,使模型能够更好地理解和推理复杂的医学概念关系。
反向思考:
创新点: 反向设计一个"遗忘"机制。
具体方案: 开发一个智能"遗忘"系统,定期评估和移除模型中不再相关或过时的医学知识,以保持模型的时效性和准确性。
问题:
创新点: 将"提问"作为学习的核心驱动力。
具体方案: 设计一个基于问题的学习框架,让模型不断生成和回答医学相关问题,通过这种自我提问和回答的过程来深化理解和扩展知识。
错误:
创新点: 利用错误诊断作为学习的主要来源。
具体方案: 建立一个"错误诊断库",收集真实世界中的医疗误诊案例,让模型学习这些案例以提高其诊断准确性和避免常见错误。
感情:
创新点: 整合情感理解能力到医学对话中。
具体方案: 开发一个情感感知模块,使模型能够识别和适当回应患者的情绪状态,提供更人性化的医疗咨询服务。
模仿:
创新点: 模仿专家医生的诊断思维过程。
具体方案: 通过分析和模仿顶级医生的诊断决策过程,开发一个"专家思维模拟器",让模型学习专家级的医疗推理能力。
最渴望联结:
创新点: 将健康监测与日常生活无缝结合。
具体方案: 开发一个智能健康助手系统,将医学模型与用户日常活动(如饮食、运动、睡眠)数据相结合,提供个性化的健康建议和预警。
空隙填补:
创新点: 填补医疗资源稀缺地区的诊断能力空缺。
具体方案: 设计一个轻量级的医疗AI系统,专门针对医疗资源匮乏地区的常见疾病进行优化,提供基本的诊断和建议服务。
再定义:
创新点: 将医学模型重新定义为"健康教练"。
具体方案: 重新设计模型的角色,不仅提供诊断,还主动指导用户保持健康生活方式,预防疾病发生。
软化:
创新点: 通过游戏化方式软化医学知识学习过程。
具体方案: 开发一系列医学主题的互动游戏或挑战,让模型通过"玩"来学习和巩固医学知识,提高学习效率和趣味性。
附身:
创新点: 模型"附身"不同类型的医疗专业人员。
具体方案: 创建多个专业角色(如全科医生、专科医生、护士等),让模型能够根据不同场景切换角色,提供更专业和针对性的服务。
配角:
创新点: 关注医疗过程中的辅助角色和环节。
具体方案: 开发一个全面的医疗流程辅助系统,不仅关注诊断,还优化患者登记、预约、随访等辅助环节,提高整体医疗服务质量。
刻意:
创新点: 刻意设计极端医疗场景的应对能力。
具体方案: 创建一个"极限医疗模拟器",模拟各种罕见、复杂或极端的医疗情况,强化模型在非常规情况下的诊断和决策能力。

根据以下关键标准进行比较和选择：

创新性: 方案的独特性和突破性
实用性: 在实际医疗环境中的应用价值
可行性: 技术实现的难度和成本
影响力: 对医疗服务质量和效率的潜在提升程度

综合考虑这些标准，以下几个创新点最为突出：

动态数据筛选系统 (组合)：
- 高度创新，实用性强，可显著提高学习效率
- 技术可行，对模型性能有直接且持续的影响
基于案例的学习系统 (借用)：
- 模仿人类学习过程，创新性高
- 极具实用价值，可大幅提升模型的实际诊断能力
- 实现难度适中，影响力大
错误分析和学习系统 (错误)：
- 创新地利用错误作为学习资源
- 高度实用，可持续改进模型性能
- 技术实现相对简单，对提高诊断准确性有显著影响
情感感知模块 (感情)：
- 在医疗AI领域具有独特创新性
- 提供更人性化的服务，实用价值高
- 虽然实现有一定难度，但对改善患者体验影响重大
健康教练系统 (再定义)：
- 创新地扩展了医疗AI的应用范围
- 高度实用，符合预防医学趋势
- 技术可行，对提高整体公共健康水平有重大影响

这些创新点不仅在各自的维度上表现出色，而且能够互相补充，共同构建一个更全面、高效、人性化的医疗AI系统。

它们既保持了原有方法的优势，又在不同方面进行了创新和扩展，有潜力显著提升医疗AI的整体性能和应用价值。

Debroon

关注

23
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
高效持续预训练：GPT4 水平的 8B 医疗大模型，解决微调收敛不稳定

平均医疗问答任务表现也接近GPT-4.具体方案: 设计一个基于问题的学习框架,让模型不断生成和回答医学相关问题,通过这种自我提问和回答的过程来深化理解和扩展知识。具体方案: 开发一个错误分析系统,自动收集和分析模型的错误预测,并将这些错误转化为新的学习目标,促进模型的持续改进。具体方案: 设计一个基于案例的学习系统,模拟人类医生的学习过程,通过分析和学习大量真实医疗案例来提升模型的诊断能力。具体方案: 通过分析和模仿顶级医生的诊断决策过程,开发一个"专家思维模拟器",让模型学习专家级的医疗推理能力。
复制链接

扫一扫

专栏目录