MedSyn：基于医学知识图谱增强大模型的合成医学文本生成框架-CSDN博客

本文链接：https://blog.csdn.net/m0_59235945/article/details/141401799

MedSyn: LLM-based Synthetic Medical TextGeneration Framework

Abstract 摘要

生成合成文本解决了在隐私敏感领域如医疗保健中数据可用性的挑战。本研究探讨了合成数据在现实医疗环境中的适用性。我们介绍了MedSyn，这是一种新颖的医疗文本生成框架，它将大型语言模型与医疗知识图谱（MKG）相结合。我们使用MKG来抽取提示的先前医疗信息，并使用GPT-4和微调后的LLaMA模型生成合成临床笔记。我们通过在ICD代码预测任务中的应用评估合成数据的益处。我们的研究表明，与没有合成数据的环境相比，合成数据可以将关键且具有挑战性的代码的分类准确率提高多达17.8%。此外，为了为医疗保健领域的进一步研究提供新数据，我们提供了最大的俄语临床笔记开放源代码合成数据集，包含超过41k个样本，涵盖219个ICD-10代码。

关键词:

合成数据临床笔记生成 ICD代码预测

1Introduction 简介

虽然有大量的英文开放医学数据集可用，如MIMIC系列数据库或CPRD初级保健数据库，但它们在全面涵盖各种医学领域方面的范围有限。非英语语言的文本医学数据的可用性更为有限。患者隐私和伦理考虑是影响此类数据公开可用性的主要限制因素。后者仍然是一个重大问题；文本医学资源的匮乏严重阻碍了国家医疗系统创新自然语言处理方法的研究、测试和部署。合成数据生成解决了医学研究中数据稀缺的问题。此外，人口中的疾病呈长尾分布，罕见疾病仅占数据集中案例的一小部分。这种数据不平衡问题直接影响机器学习模型在下游任务上的表现。自2020年以来，我们的临床决策支持系统已在某个地区的医疗诊所投入使用。对于罕见病例，文本数据不足阻碍了系统的进一步扩展，而合成（按需）医疗记录生成是唯一的解决方案。

图1：RuMedPrime数据集中实际临床笔记的示例 [35] （翻译成英语）。

如今，所有患者信息都存储在电子健康记录（EHRs）中，这些记录包含与患者相关的结构化医疗事件和文本模态属性：医生对症状和投诉的临床笔记、病史、药物处方等。临床笔记中的实际文本是一个复杂的对象，存在拼写错误、专业术语、缩写和省略形式。图1展示了这类笔记的示例。这就是为什么一些早期的合成生成方法（例如[10]）无法处理原始临床文本，并试图仅通过固定的类别向量和有限的因素（例如诊断和手术编码或药物名称）来逼近EHRs的原因。在合成EHRs中包含文本片段长久以来一直是一个挑战。与其从头生成医学文本，一些提出的框架在很大程度上依赖于真实的EHRs [8, 28]，其中通过对原始记录某些关键部分的数据填充来创建新的健康记录。然而，这种方法限制了结果的变异性，并留下了私人数据泄露的风险。

在开发大型语言模型（LLMs）方面的最新突破开启了在各种领域生成现实、连贯和多样化文本的新纪元。像GPT-3 [7]、LLaMA [37]及其后续模型在一般和医学文本生成方面展示了显著的能力 [4]。然而，即使这些强大的模型仍然有一些缺陷 [27]。首先，它们倾向于内容错误和幻觉 [3]，在医学这样一个精细的领域中这是不可接受的。因此，即使是基于LLM的合成生成框架仍然需要外部指导和内部验证机制，以生成医学上准确且相关的文本。

利用医学知识图谱（MKGs）[12]和本体论 [1]是缓解这一问题的一个方法。同样，这些资源在英语中非常丰富，但在像俄语这样的较少代表的语言中却相对稀缺。本文聚焦于开发一个结合LLM能力与MKG的临床笔记文本生成框架，以应对俄语案例。

我们主要的贡献可以总结如下：

我们提出了一个名为MedSyn的开源框架，用于合成临床笔记生成。该框架采用了一种新颖的方法，整合了来自MKD的特定疾病症状，并将真实数据示例纳入LLM生成管道，以提高生成数据的准确性和多样性
我们介绍了首个包含俄语合成临床笔记的数据集2，包含超过41,000条临床笔记，涵盖219个ICD-10（国际疾病分类）代码
我们提供了有关使用MedSyn框架进行合成数据生成实验的结果，包括GPT-4与开源LLaMA-7b之间的比较。结果显示，经过特定数据集微调的开源模型的表现可以与GPT-4相当或更好

2相关工作

2.1医疗知识图谱

虽然在英语中存在多种医疗知识图谱，但在其他语言中可用的很少或没有。医疗知识图谱的应用可能性各不相同；例如，有一项工作利用图嵌入进行各种医疗任务，如推荐系统、自然语言推理和诊断预测。BioLORD使用知识图谱中的概念和关系作为大型语言模型预训练的一部分。另一种利用医疗知识图谱的方法涉及用从这些图谱提取的信息丰富生成过程。这种策略可以被视为检索增强生成框架的专门应用，展示了产生更具体、多样和事实准确语言的潜力。然而，在医疗领域应用这些技术仍然是一个尚未广泛探索的领域。

2.2医疗领域的LLM

大型语言模型在医疗领域的利用逐渐增加；它们主要用于英语和中文，并在医疗问答任务中进行评估，同时用作医疗聊天机器人。还有一个研究方向专注于合成数据生成。研究人员从零开始训练GPT-3模型，使用临床和一般英语文本，随后利用该模型生成了200亿字的医疗文本，并推出了一个仅基于合成数据的小型版本。结果模型在MedNLI和emrQA基准上超越了ClinicalBERT及使用实际数据训练的同一模型。研究人员生成了临床文本并手动为命名实体识别任务进行了标注。

评估表明，原始语料库和合成语料库的组合在性能上优于仅使用初始语料库。在另一项研究中，作者利用合成数据改善了命名实体识别和关系抽取任务的性能，表明增加合成句子的数量可以在某种程度上提升模型性能，超出这个点后改进变得微不足道。在一项最近研究中，研究人员探索了将合成文本用作法语临床命名实体识别训练语料库的可行性。研究结果表明，合成临床笔记可以用于训练命名实体识别模型，尽管其他任务的应用仍待探索。

合成数据在医疗领域的真实潜力仍在积极探索之中。然而，与大型语言模型相关的典型问题，如幻觉，在如此关键的领域中带来了重大挑战。确保事实准确性并解决医疗模型中的不一致性仍然是重要关注点。在我们的研究中，我们努力填补可控医疗数据生成的空白，主要关注俄语，这在语言医疗资源中严重不足。

图2：在MedSyn框架中实现的临床笔记生成管道。来自MKG的相关症状和与ICD代码对应的临床笔记示例被编入一个提示，并作为LLM推理的输入。

3方法

临床笔记生成的整体流程如图2所示。为了为目标ICD编码生成临床笔记，首先对与MKG相关的数据（第3.1节）和真实示例进行抽样，并将其组合成一个用于LLM推理的提示。我们使用了GPT-4和经过微调的LLaMA-7b作为LLM（第3.3节）。为了微调LLaMA-7b，我们构建了一个遵循指令的数据集（第3.2节）。为了生成用于我们实验的临床笔记数据集，我们开发了一个特定的生成任务（第3.4节），并已准备好提示。

3.1医学知识图谱

如第2.1节所述，俄语的MKG对应物很少。为了我们的研究，我们使用WikiMed数据库作为基础来开发俄语MKG。

Table 1:MKG statistics. Di-Dr stands for disease-drug relation, Di-S for disease-symptom relation.

	Nodes			Edges
	Disease	Drug	Symptom	Di-Dr	Di-S
#	2,747	2,968	2,554	1,997	2,554

构建的MKG包括以下节点：疾病（通过ICD-10代码识别）、药物和症状。尽管在该数据库中，疾病和药物之间有预定义的关系，但症状及其关系并未被规定。数据库包含临床表现，这些表现以叙述的形式包含潜在症状。为了提取这些症状，我们利用了ChatGPT，提示其从给定的临床表现文本中识别症状。例如，肺结核的临床表现“脊柱结核的一种常见表现是颈部形成冷脓肿和皮肤温度升高”应导致提取出症状[颈部冷脓肿，皮肤温度升高]。提取的数据经过手动验证，通过与初始文本进行比较，以确保只包含症状，而没有提取无关信息或噪音。

最终提取的症状然后被纳入MKG。其统计细节显示在表1中。

在这里插入图片描述
图3：MKG上k-hop推理问题的示例。Di - 疾病，Dr - 药物，S - 症状。

3.2遵循指令的数据集

我们收集了一个包含152k俄语样本的数据集，专注于指令跟随的监督微调。这些样本来源于各种医学基准、数据库和构建的MKG。利用MKG，我们创建了需要多层次推理的问题，范围从简单的1跳到复杂的3跳距离。例如，像“提供一种疾病的症状”这样的1跳推理问题直接连接疾病和症状（Di-S）。2跳问题，比如“写下可以用于这些症状的药物”，涉及将症状与疾病相连，然后再与药物相连（S-Di-Dr）。一个更复杂的3跳推理问题，如“列出如果一种疾病被误认为另一种具有类似症状的疾病时可以使用的药物”，将疾病映射到症状，然后再到另一种疾病，最终到药物（Di-S-Di-Dr），如图3所示。我们避免超过三跳的推理场景，因为根据我们的估计，这会产生过于模糊和容易出错的样本。对于临床记录，我们采用了两种任务类型：续写，从随机点扩展现有记录，以及生成，从症状等先前数据创建记录。我们为每种任务生成了至少五种不同的改写，以确保指令多样性。

图4：指令遵循数据集的结构。叶子节点代表数据来源，以及相对于父类别的数据百分比。

除了真实的医疗数据之外，我们还加入了来自ChatGPT的合成数据。考虑到真实的临床笔记经常存在许多拼写错误和风格变化，这可能会影响模型性能，我们建议添加合成笔记可以改善模型的文本生成并作为一种正则化方法。为了创建这些合成数据，我们提示ChatGPT根据患者的症状、年龄和性别生成临床笔记。对于部分数据，还额外提供了与真实样本的风格参考。我们还加入了一个专注于拼写纠正的医疗数据集，以使模型对拼写错误更具鲁棒性。数据集的结构如图4所示。

3.3Fine-Tuning 微调

与英语语言不同，据我们所知，俄罗斯语领域没有任何针对医疗领域的开源生成LLM。因此，我们使用GPT-4进行数据生成以建立一个强大的基线。

我们的工作使用基于LLaMA 2系列的模型。这是一组参数范围从70亿到77亿的开放生成语言模型。我们使用学习率2⁢e−5对具有70亿参数的模型进行了微调，并使用余弦学习率调度器对模型进行了微调。我们利用了256的全局批量大小，并训练模型三轮。

为了提高模型的效率并加速训练，我们采用了低秩适应（LoRA）。该方法涉及冻结模型的权重，并将可训练的秩分解矩阵注入Transformer架构的每一层。

LLaMa-7b的预训练数据由90%的英语数据和仅0.13%的俄语数据构成。因此，为了微调我们的模型，我们决定使用Saiga 24的预训练检查点，该检查点经过微调以适应由GPT-4生成的俄语指令和对话。

3.4Generation Task 生成任务

我们准备了一项生成任务，以生成合成临床笔记，使用真实数据示例和涵盖105个ICD-10类别代码的症状，如RuMedTop3数据集中所示。我们根据第3.5节中概述的方法，从俄语MKG（第3.1节）中提取了先前的症状样本。

我们的目标是在生成任务中实现ICD代码的均匀分布，但数据的缺乏需要进行不可避免的权衡。鉴于样本数量有限（1,283个样本），为确保抽样程序能够代表示例和症状的多样性，我们采用了一种特定的方法来确定每个ICD-10类别代码𝒞的频率和计算其权重：

一个对这一加权程序的例外是类别Z00，定义为无投诉、可疑或报告诊断的一般检查就诊。由于这一类别对下游任务没有特别的兴趣，我们将这一类别代码的生成次数设定为10，从而不将其权重纳入整体分布中。我们通过对这一分布的临床笔记和症状进行抽样获得最终生成任务，共包含2503条记录。每条记录由一个ICD-10代码、一个真实临床笔记的例子以及一组症状组成。

对于基线，我们生成的样本不在提示中使用来自MKG的数据。基线提示与原始提示类似，但仅包含疾病名称，而不包括来自MKG的疾病先前信息和一个临床笔记示例。生成的和真实的临床笔记在文本中没有ICD代码，以避免数据泄露。

3.5Symptoms Sampling 症状采样

临床环境中症状的实际分布是复杂的。例如，某些症状可能不会共同出现或特定于某个年龄或性别。然而，在这项研究中，我们假设症状是独立同分布的。因此，我们选择多种疾病的症状，而不考虑它们之间的相互关系。我们从与某种疾病相关的MKG（第3.1节）中随机抽取几种症状，数量从1到5不等，这也是随机选择的。

3.6Synthetic Dataset 合成数据集

我们发布了一个包含41,185条合成临床笔记的数据集，这些笔记是使用GPT和微调的LLaMA模型生成的，涵盖了219个ICD-10代码。该数据集包括所有生成的样本，无论质量如何，旨在促进各种数据选择方法。有关数据字段的更详细统计信息和描述可在项目数据集库中找到。根据提供的许可证，所有机密信息均已匿名化，研究人员可以安全地使用这些数据集。

4Experiments 实验

4.1Datasets and Tasks 数据集和任务

在这项研究中，我们使用了RuMedPrime数据集，该数据集包含来自西伯利亚国立医科大学医院的7,625个匿名就诊记录。该数据集是唯一一个包含俄语临床记录并带有ICD-10代码的开源集合，涵盖了每位患者的临床记录、症状及相应的ICD代码。基于该数据集，创建了RuMedTop3任务，重点是从自由文本临床记录中预测ICD代码。在这样的任务下，可以实现一个AI服务，以支持医生进行诊断搜索的第二意见。

我们的研究采用了与RuMedTop3相同的数据集划分，使用4,690条记录进行训练，848条进行验证，822条进行测试，同时结合了完整的临床记录和症状。与RuMedTop3一样，我们采用了第二层ICD-10分类代码层级。我们还在原始RuMedTop3数据集上评估了结果。

4.2Models 模型

我们进行了实验，使用了基于特征的线性模型和变压器模型。对于线性模型，我们采用了基于词频-逆文档频率（TF-IDF）特征的逻辑回归。对于变压器模型，我们进行了RuBERT和RuBioRoBERTa的实验，并报告了三次运行的平均结果。

4.3Evaluation 评估

ICD编码预测是一个多类分类任务。为了评估它，我们利用hit@k评分（k∈[1,3,5]），定义如下：其中N是样本数量，hit(y^{,topk)如果真实的ICD编码y}在k个预测代码topk的排名列表中则为1，否则为0。

4.4Results 结果

4.4.1Prompt Following 提示跟随

我们使用BERT-score来测量合成数据与示例及提供的症状的相似性（图5）图5：示例和症状使用的BERT分数

从较高的分数可以看出，GPT-4模型更精确地遵循指令，生成的结果与示例更为相似，并更充分地利用了提供的症状。尽管与示例的高相似度是可取的，但完全复制是不利的。为了评估复制情况，我们计算了示例N-grams使用的比例，定义为生成样本与示例之间独特的共同N-grams的比例，除以示例中独特N-grams的数量（图6）。对于大多数样本，N-grams使用比例小于1，这表明这些示例在答案中远未完全复制。

图6：N-gram使用比例

4.4.2从训练集中生成数据

图7：仅使用合成训练数据的预测结果（代码K81和I11）。轮廓条表示基准提示，该提示不使用MKG，仅包含任务和疾病名称。

一个令人兴奋但在实践中颇具挑战性的场景是生成在原始训练集中几乎不存在的数据或临床有价值的数据。我们为实验选择了两个重要的ICD代码，K81和I11。第一个是胆囊炎，影响大约20%的成年人口。第二个代码表示一种心脏病，是最常见的死亡原因之一。

我们将所有真实数据样本转移到测试集，使得用训练集中的真实数据评估实验变得不可能。然而，在本实验中，我们优先考虑多样化的测试集，因为它可以减轻下游任务中缺乏代表性的合成样本可能导致的表现不佳。我们用30个合成样本替换了两个模型训练集中的真实数据，并为LLaMA-7b增加了59个样本，以评估增加样本数量的影响（图7）。

尽管使用这种合成数据训练的模型在h⁢i⁢t⁢@⁢1指标上仍然得分为零，但它们在如h⁢i⁢t⁢@⁢5等限制较少的指标上显示出良好结果，表明在缺乏真实数据的情况下有进一步改进的潜力。因此，经过特定改进的合成数据有可能越来越成为在数据稀缺环境中训练模型的可行替代方案。

4.4.3Synthetic Upsampling 合成上采样

另一个合成数据的应用是数据上采样。在这个实验中，我们使用了与上一节（第4.4.2节）相同的合成数据，并将其添加到训练集中。结果表明模型可以从这样的合成数据中受益。例如，RuBioRoBERTa模型的K81代码预测准确率提高了17.8%（图8）。为了评估所有ICD代码的整体准确性，我们还评估了基线和完整提示（表2）。

_图8：使用上采样训练集对代码K81和I11的预测结果。图例表示数据来源/真实样本数量/合成样本数量。____表2：K81和I11代码的上采样训练集中的所有代码得分_为了更详细的分析，我们专注于两个常常互相混淆的代码，这对代码的错误混淆率高于其他任何组合。这个决定是基于混淆矩阵，该矩阵衡量每对代码被混淆的频率。分析显示，最常被混淆的代码是M54和G54。
我们选择了为这两个代码生成的合成数据，采用了在第3.4节中描述的相同生成任务，使用了GPT-4和LLaMA-7b模型。对于LLaMA，我们多次重复生成以评估数据扩展的效果。在这里，我们仅报告线性模型的结果，以展示未跨多个模型平均的代码的同时变化。实验结果见表3。虽然GPT-4生成的数据同时为两个代码提供了改进，但LLaMA生成的数据仍然为其中一个代码提供了改进，而另一个代码未出现下降。

_表3：最常配对错误分类代码的上采样结果。线性模型的预测。#R/S代表训练集中真实和合成样本的数量。 ↑表示两个代码同时增长，↗-表示一个代码增长而另一个未下降。
_

4.4.4RuMedTop3 上采样

尽管生成的临床笔记包含的信息比RuMedTop3任务中的数据更多，该任务专注于症状，但利用生成的数据对这个数据集进行上采样仍然是可行的，因为它们共享相同的一组ICD代码。我们在表4中报告了使用生成数据上采样的结果，显示所有模型都受益于合成数据。

表4：RuMedTop3数据集上采样的结果（实际数据量为4,690个样本，合成数据集的大小为2,503个样本）。

4.5Human assessment 人类评估

我们在并排的场景中进行了人类评估，以定性评估合成的临床文本。首先，我们根据一般的 ICD 代码分布随机抽取了 105 个真实临床笔记示例，并将它们与合成文本配对。其次，在每一对中，我们选择随机句子（中位数单词数为 8），以促进标记并且使比较不受笔记结构的影响。这些文本对呈现给了一名医学实习生，唯一的问题是 – 哪个文本是合成的，1 还是 2？评估者正确率为 58.09%（61 个案例）。鉴于随机猜测为 50%，我们可以得出结论，我们的合成文本具有可接受的质量。在进一步的研究中，我们计划在更复杂的人类评估场景中评估 MedSyn 框架。

5Discussion 讨论

我们在所有评估中使用了生成的数据集，未应用过滤或样本选择技术。因此，这些数据集可能包含带有轻微事实错误或与提供的提示不相关的腐败样本。

为了估计样本的有效性，我们使用在真实数据上训练的模型预测它们的标签。我们计算有效样本的比例，这些样本的真实标签出现在五个RuBERT模型中至少两个模型的前5个预测中，每个模型使用不同的种子进行训练。我们发现51%的LLaMA-7b样本和64%的GPT-4样本通过了这一标准。然而，这只是一个粗略的标准，因为它可能导致假阴性，即正确的合成样本超出训练分布而被持续误分类。此外，样本可能包含相关信息，导致准确预测的同时仍存在一些腐化。这一观察结果还表明，GPT-4生成的数据可能包含更少的不准确样本，从而有助于更好的性能。可能的样本腐化可能导致生成内容在特定临床场景中的真实性和适用性存在差距，突显出需要先进过滤算法以改善数据质量。未来对MKG的增强，包括更广泛的医学信息，可能会改善生成合成数据的稳健性和多样性。

虽然合成数据与真实患者并不直接相关，但在临床环境中的使用仍然可能引发有关其适用性和可接受性的伦理问题。关键关注点包括：1）确保数据准确反映多样的患者群体，而不引入偏见；2）保护潜在的间接隐私侵权；3）评估其使用可能如何影响临床决策。此外，必须对合成数据的制作和使用保持透明，并确保其使用遵循医学环境中的知情同意规则。

6Conclusion 结论

所提出的MedSyn框架在生成合成临床笔记方面显示出有希望的结果。人类评估显示生成文本的高质量，与真实的医疗笔记无法区分。在数值实验中，使用额外的合成笔记相比仅使用真实数据，生理和挑战类的ICD代码分类准确率提高了17.8%。此外，使用生成数据训练的模型即使作为唯一的训练来源，仍显示出相当的质量，超越了一个坚实的基线，并帮助提高了RuMedTop3任务的得分。从实际的角度来看，我们计划利用开发的框架进行罕见疾病笔记的生成。这种合成数据将使我们大幅增加临床决策支持系统中的疾病类别数量，从十几种提高到数百种ICD代码，给医生提供可靠的第二意见，即便在罕见的情况下。

该框架的设计允许与各种MKGs轻松集成，承诺提供更强大和多样化的数据生成。为了促进这一领域的持续创新，我们已公开发布了训练好的模型、部分训练数据集和合成数据集。这些资源为医疗领域的进一步研究铺平了道路，尤其是在数据稀缺的任务中。例如，它们可能作为医疗NER标记或ICD编码任务的数据集，在这些任务中，基于此类数据训练的模型可以为人类提供有价值的自动化建议。虽然合成数据可能包含不一致性或缺陷，但在低资源语言（如俄语）或低数据领域（如医疗保健）中仍然具有重要价值。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述