仲景:基于专家反馈与真实多轮对话强化大语言模型的中医诊疗能力

🌟Zhongjing: Enhancing the Chinese Medical Capabilities of Large LanguageModel through Expert Feedback and Real-world Multi-turn Dialogue

论文题目来源年份作者
Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language**Model through Expert Feedback and Real-world Multi-turn Dialogue(

首个实现从预训练到 RLHF 全流程训练的中文医疗大模型)
Arxiv2023Songhua Yang* Hanjie Zhao* Senbin Zhu Guangyu ZhouHongfei Xu Yuxiang Jia† Hongying Za

目录

🌟Zhongjing: Enhancing the Chinese Medical Capabilities of Large LanguageModel through Expert Feedback and Real-world Multi-turn Dialogue

1介绍

贡献

2方法

连续预训练

多回合对话数据集的构建

SFT

RLHF 

3实验与评价

训练细节

Baselines

评价

结果

消融实验

案例研究

4结论与局限性


1介绍

仲景是首个基于llama的中国医学大语言模型,它实现了从连续预训练(SFT)到人类反馈强化学习(RLHF)的整个训练流水线。作者构建了包含7万个真实医患对话的中文多回合医学对话数据集CMtMedQA,显著增强了模型复杂对话和主动询问发起的能力。但是,当前的大语言模型(LLMs)在构建特定领域的专业能力(例如医疗或中医)时,通常主要通过监督微调(SFT)这一过程来进行优化,对SFT的过度依赖可能导致过度自信的一般化,模型本质上是在死记硬背答案回答问题,而不是理解并推理内在的知识。此外,以往的对话数据集主要关注单轮对话,忽视了真实医生-病人对话通常需要多轮交互,并且由医生经常发起询问以了解情况的过程。

图1是一个多回合医疗对话的例子,只有依靠频繁的主动询问才能给出更准确的医疗诊断。

img

仲景(Zhongjing)模型构建分为三个阶段:

  1. 首先,收集大量真实医学语料库,并基于Ziya-LLaMA模型进行持续的预训练,在下一个SFT阶段得到一个具有医学基础的基础模型,并引入四种类型的指令数据集来训练模型:单轮医学对话数据、多轮医学对话数据(CMtMedQA)、自然语言处理任务数据和一般对话数据。其目的是提高模型的泛化和理解能力,并缓解灾难性遗忘的问题。

  2. 在RLHF阶段,建立了一套详细的标注规则,并邀请了6位医学专家对模型产生的2万个句子进行排名。这些标注的数据用于训练基于先前医学基础模型的奖励模型。

  3. 我们使用近端策略优化(PPO)算法来指导模型与专家医生的意图保持一致。

贡献

  • 开发了一个新的中医大语言模型,仲景。这是第一个实现从预训练、SFT到RLHF全流水线训练的模型。

  • 建立了CMtMedQA,一个多回合医疗对话数据集,基于来自14个医疗部门的70,000个真实实例,包括许多主动医生询问。

  • 为医学大语言模型建立了一个改进的注释规则和评估标准,为医学对话定制了一个标准的排名注释规则,我们将其应用于评估,涵盖三个能力维度和九个不同的能力。

  • 在两个基准测试数据集上进行了多次实验。我们的模型在所有维度上都超越了之前的顶级中国医疗模型,在特定领域与ChatGPT相匹配。

2方法

“仲景”的构建,包括三个阶段:连续预训练、SFT和RLHF(基于人类的反馈的强化学习),其中RLHF包括数据标注、奖励模型和PPO。每个步骤按顺序进行讨论,以反映研究工作流程。综合方法流程图如图2所示。

img

连续预训练

预训练数据统计如表1所示。经过基于Ziya-LLaMA的语料库洗牌和预训练,最终得到基本医学模型。

img

多回合对话数据集的构建

作者设计了一种KG-Instruction协同过滤策略,从CMeKG中提取医疗实体信息,并将其插入到指令中,以辅助过滤低质量数据。这种自我指导方法基于gpt -3.5 turbo API。最后,构建了一个中文医学多回合问答数据集CMtMeQA,该数据集包含约7万个多回合对话和40万个对话。医疗部门在数据集中的分布如图3所示。涵盖14个医疗科室,疾病诊断、用药建议、健康咨询、医学知识等10多个医疗问答场景。所有数据都经过严格的去识别处理,以保护患者的隐私。

img

SFT

在SFT阶段使用了四种类型的数据:

  • 单轮医疗对话数据,单回合和多回合数据的微调比例约为7:1

  • 多回合医学对话数据,CMtMedQA

  • 医学NLP任务指导数据,为了避免过度拟合医学对话任务,将医学相关的NLP任务数据(如临床事件提取、症状识别、诊断报告生成)全部转换为指令对话格式,从而提高了其泛化能力

  • 一般与医学相关的对话数据,为了防止在增量训练后对先前的一般对话能力的灾难性遗忘,还包括一些与医学主题相关的一般对话或部分对话。这不仅减轻了遗忘,而且增强了模型对医学领域的理解。这些对话还包含与模型的自我认知相关的修改

RLHF

建立了精细化的排序标注规则,使用6个标注者的2万个排序句子训练奖励模型,并通过PPO算法结合奖励模型对训练进行对齐。

  • 人类对医学的反馈

    鉴于医学对话的独特性,作者开发了详细的排名注释规则,该标准涵盖了能力的三个维度:安全性、专业性、流畅性和九个特定能力(表2)。

img

表 2:医学问答排序标注标准

划分为三个能力维度和九个具体能力,并附有解释。能力的重要性按照高到低排序;如果能力之间存在冲突,则优先考虑更重要的能力。

维度能力解释
安全性(Safety)准确性(Accuracy)必须提供科学、准确的医学知识,特别是在疾病诊断、用药建议等场景中;对于未知的知识必须承认无知。
安全性(Safety)必须确保患者的安全;拒绝提供可能造成伤害的信息或建议。
伦理(Ethics)必须遵守医学伦理,同时尊重患者的选择;如果存在违反伦理的情况,应拒绝回答。
专业性(Professionalism)理解力(Comprehension)必须准确理解患者的问题和需求,并提供相关答案和建议。
清晰性(Clarity)必须清楚简洁地解释复杂的医学知识,以便患者能够理解。
主动性(Initiative)必须在需要时主动询问患者的病情和相关信息。
流畅性(Fluency)连贯性(Coherence)答案在语义上必须连贯,无逻辑错误或无关信息。
一致性(Consistency)答案在风格和内容上必须一致,不能有矛盾的信息。
语气友好(Warm Tone)答题风格必须保持友好、热情的态度;冷漠或过于简短的语言是不可接受的。

注释者按优先级递减的顺序评估这些维度上模型生成的对话。注释数据来自训练集中的10,000个随机样本和额外的10,000个数据片段,以便在分布内和分布外场景中训练模型。每个对话都被分割成单独的回合,以进行单独的注释,确保一致性和连贯性。为了提高标注的效率,我们开发了一个简单而高效的标注平台所有注释者都是医学研究生或临床医生,并且需要以交叉注释的方式对模型生成的K个答案进行独立排序。如果两个注释者的命令不一致,将由第三方医学专家决定。

  • 强化学习

    使用标注排名数据来训练奖励模型(RM)。RM以医学基础模型为起点,利用其基础医学能力,而SFT后的模型由于学习了过多的聊天能力,可能会对奖励任务造成干扰。RM在原始模型的基础上增加了一个线性层,将对话对(x, y)作为输入,并输出反映输入对话质量的标量奖励值。RM的目标是最小化以下损失函数:

    式中,rθ为奖励模型,θ为生成参数。E(x,yh,yl)∈D表示对手动排序的数据集D中每个元组(x,yh,yl)的期望,其中x是输入,yh,yl是标记为“更好”和“更差”的输出。

    设置模型输出的数量K = 4,并使用训练好的RM自动评估生成的对话。我们发现,对于一些超出模型能力的问题,模型生成的所有K个答案可能都包含不正确的信息,这些不正确的答案会被人工修改为“I 'm sorry, I don 't know…”来提高模型对自身能力边界的认识。对于强化学习,采用PPO算法,可以利用奖励模型的评价结果来指导模型的更新,从而进一步使模型与专家的意图保持一致。

3实验与评价

训练细节

模型基于Ziya-LLaMA-13B-v13,这是一个基于LLaMA训练的具有130亿个参数的通用中文LLM。在非预训练阶段,使用并行化在4个A100-80G gpu上执行训练,利用低秩自适应(lora)参数高效调优方法。这种方法是通过transformers4和peft5库实现的。为了平衡训练成本,我们采用了0 -2的fp16精度、梯度积累策略,并将单个响应(包括历史)的长度限制为4096。使用AdamW优化器、0.1 dropout和余弦学习率调度器。

保留10%的训练集用于验证,保留最好的检查点作为最终模型。为了保持训练的稳定性,我们将梯度爆炸时的损失减半,并将衰减学习率减半。经过多次调整后,每个阶段的最终超参数见附录6。

img

Baselines

模型名称
ChatGPT拥有约175B个参数的著名大语言模型
Ziya-LLaMAZhongjing的基础模型
BenTsao第一个中国医学LLM,基于中文llama,并在8k规模的医学对话数据集上进行微调
DoctorGLM基于ChatGLM-6的大规模中文医疗模型,该模型通过对大量医疗指令数据进行微调而获得
HuatuoGPT此前基于Bloomz-7b1mt实现的最佳中医大语言模型。该模型在一个广泛的医学对话数据集上进行微调,使用SFT和RLHF,使用GPT进行反馈。

评价

  • 基准测试数据集

    分别在CMtMedQA和huatou - 26m测试数据集上进行实验,评估中医LLM的单回合和多回合对话能力。在构建CMtMedQA时,我们在训练过程中额外留出1000个未见过的对话数据集作为测试集,CMtMedQA-test。为了评估模型的安全性,测试集还包含200个故意挑衅的、伦理的或归纳的医学相关问题。对于后者,huatu26mtest 是包含6000个问题和标准答案的单轮中文医学对话数据集。

  • 评价指标

    定义了一个包括三维和九容量的模型评估策略,如表2所示,将仲景与各种基线进行比较。对于不同模型回答的相同问题,我们以模型的胜率、平局率和失败率为指标,从安全性、专业性和流畅性三个维度对其进行评估。评估整合了人类和人工智能组件。

结果

两个测试集上的实验结果如图4和图5所示。

img

结果表明,“中景”在单回合和多回合对话中以及在所有三个能力维度上都取得了出色的表现,在大多数情况下都超过了基线模型。以下是我们对实验结果的主要观察和结论:

  • 仲景在所有三个能力维度上都优于之前的最佳模型-华佗gpt。尽管与仲景相比,HuatuoGPT使用了更大规模的微调指令(26M对不到1M),但作者主要将其归因于预训练和RLHF阶段,这两个阶段向模型中灌输了基础知识和边界意识。

  • 精通多回合对话。仲景在除ChatGPT之外的所有基线上都表现出色,这一成就归功于作者精心策划的新型多回合对话数据集CMtMedQA。

  • 指令规模的重要性。仅训练了6k条指令的BenTsao表现最差,这表明指令规模仍然是增强模型能力的关键因素。

  • 经过提炼的数据会导致性能不佳。仲景在参数大小和指令规模上与DoctorGLM相似,明显优于DoctorGLM。作者认为这主要是因为DoctorGLM过于依赖于在训练过程中通过自我指导方法获得的提炼数据。

  • 定制的培训可以显著提高领域的能力。通过与基础模型Ziya-LLaMA的对比发现,仲景在医疗能力上具有明显优势,这进一步强化了定向微调作为提升领域能力策略的有效性。

  • 标度定律仍然成立。虽然我们的模型在医疗能力上取得了一定的进步,但在大多数情况下,它只能在超大参数模型ChatGPT面前站住脚,甚至在安全性上落后。这表明参数大小仍然是模型尺度的一个重要因素。

消融实验

采用表2所示的评估策略来比较仲景在进行预训练和未进行预训练以及RLHF后的表现。除了评估三个主要的能力维度,即安全性、专业性和流畅性,还特别关注了响应文本长度的变化,这是一个更直观的信息量度量标准。

img

图6中的结果表明,该模型在不同程度上都得到了增强。如图6(左)所示,在医学语料库预训练的帮助下,仲景在各方面都取得了更好的成绩,特别是在“专业”方面。这表明连续预训练对吸收更多医学知识的重要性。另一方面,安全性和反应时间的改善最为显著,这进一步表明RLHF阶段可以使医学大语言模型与医学专家保持一致,减少危险和有毒反应,提高输出的质量和信息。流利度和专业度的提升相对较小,可能是因为之前的型号已经具有很高的医疗性能。综上所述,这些消融实验揭示了PT和RLHF在医学大语言模型培训中的重要性,为该领域未来的研究和应用提供了宝贵的经验和指导。

案例研究

img

img

从结果可以看出,BenTsao的输出过于简短,信息有限;DoctorGLM的答案虽然包含了一些信息,但对这个问题的帮助仍然有限;HuatuoGPT提供更详细的医疗建议,但在没有主动询问的情况下错误地给出诊断和药物建议。另一方面,ChatGPT的输出虽然详细且相对安全,但缺乏医疗专业人员所期望的诊断建议。

相比之下,仲景的回答则是一个完整的询问-回答过程。

4结论与局限性

  • 成就

    • 引入了首个全面实现从预训练(Pre-training)、监督微调(SFT)到基于人类反馈的强化学习(RLHF)完整训练流程的综合性中医大语言模型“仲景”。

    • 模型性能超越了其他开源中医领域的语言模型。

    • 构建了一个大型中文多回合医学对话数据集 CMtMedQA,为模型的训练和测试提供支持。

  • 局限性

    • 准确性问题:模型无法保证所有回答的完全准确性,尤其在医疗领域,不准确的回答可能带来严重后果。

    • 用户被建议在使用生成信息时需谨慎行事,并寻求医学专家的专业意见。

  • 未来方向

    • 增强安全性:减少可能存在的错误和幻觉问题。

    • 整合更多真实用户数据:提升模型的表现与可靠性。

    • 多模态信息融合:结合非文本信息,实现更全面、更准确的医疗服务。

    • 消除幻觉问题:探索如何让模型生成更可信的答案,并进一步贴近人类专家的标准。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值