将医学知识图谱融入大型语言模型用于诊断预测:设计与应用研究

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


摘要

电子健康记录(EHR)和日常护理记录在患者的日常护理中发挥着重要作用,提供了全面的健康、诊断和治疗记录。然而,复杂且冗长的EHR叙述可能会使医疗保健提供者不堪重负,增加诊断不准确的风险。尽管大型语言模型(LLM)在多种语言任务中展现了其潜力,但其在医疗保健中的应用必须优先考虑减少诊断错误和防止患者受到伤害。将知识图谱(KG)整合到LLM中是一种有前景的方法,因为KG中的结构化知识可以通过提供与上下文相关的医学信息来增强LLM的诊断推理能力。本研究介绍了DR.KNOWS(诊断推理知识图谱系统),该模型通过整合基于统一医学语言系统(UMLS)的知识图谱与LLM,从EHR数据中提取与患者特定信息一致的上下文相关路径,以改善诊断预测。DR.KNOWS结合了堆叠图同构网络用于节点嵌入和基于注意力机制的路径排序器,以识别和排序与患者临床背景相关的知识路径。我们在来自不同地理位置的两个真实世界EHR数据集上评估了DR.KNOWS,并将其性能与基线模型进行了比较,包括QuickUMLS和标准LLM(Text-to-Text Transfer Transformer和ChatGPT)。为了评估诊断推理质量,我们设计并实施了一个基于临床安全指标的人类评估框架。DR.KNOWS在基线模型上表现出显著改进,显示出更高的诊断概念提取准确性和增强的诊断预测指标。使用DR.KNOWS知识路径对Text-to-Text Transfer Transformer进行基于提示的微调,实现了最高的ROUGE-L(召回导向摘要评估——最长公共子序列)和概念唯一标识符F1分数,突出了知识图谱整合的好处。人类评估者发现DR.KNOWS的诊断推理与正确的临床推理高度一致,表明其在抽象和推理能力上的改进。认识到的局限性包括知识图谱数据中可能存在的偏差,我们通过强调案例特定路径选择并提出未来的偏差缓解策略来解决这一问题。DR.KNOWS通过将结构化的知识图谱知识整合到基于LLM的临床工作流程中,为提高诊断准确性和推理能力提供了一种稳健的方法。尽管需要进一步的工作来解决知识图谱的偏差并扩展其普适性,但DR.KNOWS代表了朝着可信人工智能驱动的临床决策支持方向的进步,其人类评估框架专注于诊断安全性和与临床标准的一致性。

引言

电子健康记录(EHR)的广泛使用以及日常护理记录的标准文档实践是患者护理连续性的关键,因为这些记录提供了患者健康轨迹的全面描述,包括病情状态、诊断和治疗计划。然而,EHR临床叙述的复杂性和冗长性不断增加,这些记录通常充满了冗余信息,可能会使医疗保健提供者不堪重负,并增加诊断错误的风险[25]。医生经常跳过冗长且重复的记录部分,并依赖决策捷径(即决策启发式方法),这可能导致诊断错误。

目前,从日常病程记录中自动生成诊断的努力利用了大型语言模型(LLM)。Gao等人引入了一个总结任务,该任务以病程记录为输入并生成活动诊断的总结。作者对公开可用的EHR数据集——医学信息市场用于重症监护(MIMIC-III)中的一组病程记录进行了注释。2023年BioNLP共享任务(ProbSum)在此基础上提供了额外的注释记录,并吸引了多个专注于开发解决方案的努力[911]。这些先前的研究展示了应用LLM作为解决方案的日益增长的兴趣,这些研究使用了Google Research开发的Text-to-Text Transfer Transformer(T5)和Open AI的生成性预训练变换器(GPT)等语言模型。与LLM在传统语言任务中展现出的有希望的能力不同,自动生成诊断是一项关键任务,需要高准确性和可靠性,以确保患者安全并改善医疗结果。对可能导致危及生命的事件的误导性和幻觉信息的担忧,阻碍了LLM在诊断预测中的应用。

统一医学语言系统(UMLS)是由美国国家医学图书馆开发的综合性资源,已在自然语言处理(NLP)研究中得到广泛使用。UMLS作为医学知识库,促进了生物医学信息的整合、检索和共享。它提供了概念词汇和语义关系,能够构建医学知识图谱(KG)。先前的研究利用UMLS知识图谱完成了信息提取[1619]和问答等任务。为诊断挖掘相关知识尤其具有挑战性,原因有二:一是EHR中记录的患者投诉、病史和症状相关的高度特定因素;二是知识图谱中包含450万概念和1500万关系的庞大搜索空间,用于诊断确定。

在本研究中,我们探索了将知识图谱作为外部资源以增强LLM用于诊断生成的潜力。我们的研究不仅受到NLP领域中将知识图谱与LLM相结合的潜力的启发,还受到医学教育和心理学研究中关于临床医生使用的诊断决策过程的理论探索的启发。形成诊断决策需要检查患者数据、检索封装的医学知识,并制定和测试诊断假设,这也被称为临床诊断推理[21,22]。我们提出了一个新颖的图模型——DR.KNOWS(诊断推理知识图谱系统),旨在检索与疾病病理学相关的前N个案例特定的知识路径,并将其输入到基础LLM中,以提高诊断预测的准确性(如图1所示)。本研究涉及两个不同的基础模型:T5(以其可微调性而闻名)和ChatGPT的沙盒版本,这是一个强大的LLM,我们在其中探索零样本提示。

图1.研究概述:我们专注于在大型语言模型 (LLM) 的帮助下,使用 SOAP(主观、客观、评估和计划)格式的进度记录生成诊断(“计划”部分中以红色显示的文本)。输入包括“主观”、“客观”和“评估”部分(“患者进度记录”标题下方的虚线框),“计划”部分中的诊断是基本事实。我们引入了一个创新的知识图谱 (KG) 模型,即 DR.KNOWS(诊断推理知识图谱系统),该模型从统一医学语言系统 (UMLS) KG 中识别并提取最相关的知识轨迹。UMLS KG 的节点表示概念唯一标识符 (CUI),边表示 CUI 之间的语义关系。我们尝试使用 ChatGPT 生成诊断,包括使用和不使用 DR.KNOWS 预测的知识路径。此外,我们研究了这种知识基础如何影响使用人工评估的 LLM 诊断输出。带下划线的文本显示了通过概念提取器识别的 UMLS 概念。EtOH:乙醇;GI:胃肠道;REDCap:研究电子数据捕获;T5:文本到文本传输转换器;UGIB:上消化道出血。
图1.研究概述:我们专注于在大型语言模型 (LLM) 的帮助下,使用 SOAP(主观、客观、评估和计划)格式的进度记录生成诊断(“计划”部分中以红色显示的文本)。输入包括“主观”、“客观”和“评估”部分(“患者进度记录”标题下方的虚线框),“计划”部分中的诊断是基本事实。我们引入了一个创新的知识图谱 (KG) 模型,即 DR.KNOWS(诊断推理知识图谱系统),该模型从统一医学语言系统 (UMLS) KG 中识别并提取最相关的知识轨迹。UMLS KG 的节点表示概念唯一标识符 (CUI),边表示 CUI 之间的语义关系。我们尝试使用 ChatGPT 生成诊断,包括使用和不使用 DR.KNOWS 预测的知识路径。此外,我们研究了这种知识基础如何影响使用人工评估的 LLM 诊断输出。带下划线的文本显示了通过概念提取器识别的 UMLS 概念。EtOH:乙醇;GI:胃肠道;REDCap:研究电子数据捕获;T5:文本到文本传输转换器;UGIB:上消化道出血。

我们的工作和贡献主要分为两个部分:(1)设计并评估DR.KNOWS,这是一个基于图的模型,能够选择最有可能的前N个诊断及其可解释的路径;(2)展示DR.KNOWS作为附加模块在增强预训练语言模型生成相关诊断方面的实用性。除了技术贡献外,我们还提出了第一个针对LLM生成诊断的人类评估框架,该框架采用了一种旨在评估诊断安全性的调查工具。我们的研究提出了一个在自然语言处理(NLP)领域尚未解决的新问题,即利用知识图谱(KG)增强基础模型的可控性和可解释性。通过在真实世界医院数据集上研究基于KG路径的提示对基础模型的影响,我们努力为可解释人工智能(AI)诊断路径做出贡献。

由于知识图谱(KG)与LLM的整合能够增强事实性知识,尤其是在领域特定的问答任务中,这种整合作为一种新兴趋势越来越受到关注。我们的研究通过将知识图谱整合到LLM中用于诊断预测,并使用一种新颖的基于路径的图模型作为提示,从而脱颖而出。

研究方法

基于日常病程记录的诊断预测

日常病程记录采用SOAP(主观、客观、评估和计划)格式。SOAP格式的主观部分包括患者的自报症状、担忧和病史。客观部分由医疗保健提供者在观察或检查过程中收集的结构化数据组成,例如生命体征(如血压和心率)、实验室结果或体格检查发现。评估部分总结了患者的整体状况,重点关注当天最活跃的问题和诊断。最后,计划部分包含多个子部分,每个子部分概述了一个诊断或问题及其治疗方案。我们的任务是预测计划部分中包含的问题和诊断列表。
本研究使用了ProbSum数据集,这是一个为2023年生物自然语言处理共享任务创建的注释资源,其中的金标准诊断是从病程记录中得出的。

使用医学知识图谱寻找潜在诊断

UMLS概念词汇表包含超过180个来源。在本研究中,我们专注于系统化医学命名法——临床术语(SNOMED CT)。UMLS词汇表是一个全面的多语言健康术语,也是美国电子健康记录和健康信息交换的国家标准。每个UMLS医学概念都被分配了一个来自临床术语系统的SNOMED CT概念唯一标识符(CUI)。我们使用UMLS知识源中的语义类型、网络和语义关系来根据共享属性对概念进行分类,从而支持跨各种医学词汇表的语义理解和知识发现。
给定一个医学知识图谱,其中节点代表概念,边表示语义关系,以及描述患者问题的输入文本,我们可以在知识图谱中进行多跳推理,并推断出最终诊断。图2展示了如何使用UMLS语义关系和概念从日常护理记录中识别潜在诊断。示例患者表现出发热、咳嗽和脓毒症等医疗状况,这些是通过医学概念提取器(临床文本分析和知识提取系统和QuickUMLS)识别的概念,也是多跳推理的起始概念。最初,我们提取了这些概念的直接邻居。与患者描述一致的相关概念被优先考虑。为了精确诊断,我们在每次跳转中选择最相关的前N个节点。
图 2.问题表述:根据患者的医疗描述,从统一医学语言系统 (UMLS) 知识图谱中在 2 跳内推断可能的诊断。UMLS 医学概念在彩色框中突出显示(“女性”、“败血症”等)。每个概念都有自己的子图,其中概念是顶点,语义关系是边(由于空间限制,我们在此图形演示中省略了“女性”的子图)。在第一跳中,我们可以识别与输入描述最相关的相邻概念。顶点的颜色越深,它们与输入描述的相关性就越高。可以基于最相关的节点进一步执行第二跳,最终诊断为“肺炎和流感”和“呼吸窘迫综合征”。值得注意的是,出于演示目的,我们使用概念唯一标识符的首选文本。实际的 UMLS 知识图谱是基于概念唯一标识符而不是首选文本构建的。
图 2.问题表述:根据患者的医疗描述,从统一医学语言系统 (UMLS) 知识图谱中在 2 跳内推断可能的诊断。UMLS 医学概念在彩色框中突出显示(“女性”、“败血症”等)。每个概念都有自己的子图,其中概念是顶点,语义关系是边(由于空间限制,我们在此图形演示中省略了“女性”的子图)。在第一跳中,我们可以识别与输入描述最相关的相邻概念。顶点的颜色越深,它们与输入描述的相关性就越高。可以基于最相关的节点进一步执行第二跳,最终诊断为“肺炎和流感”和“呼吸窘迫综合征”。值得注意的是,出于演示目的,我们使用概念唯一标识符的首选文本。实际的 UMLS 知识图谱是基于概念唯一标识符而不是首选文本构建的。

UMLS庞大的知识库包含270种语义关系,但并非所有关系对诊断推理都至关重要。将不相关的关系加入知识图谱会显著增加计算和检索过程的复杂性。一位获得委员会认证的医生(MA)对这些关系进行了精简,确定了107种对诊断最相关的语义关系,这些关系被用来构建UMLS知识图谱。这种选择,包括“病因”等关系,排除了“逆isa”等关系,对于保持知识图谱内的计算效率和检索准确性至关重要。

数据概述

本研究使用了来自不同临床环境的两组病程记录:MIMIC-III和本院EHR数据集。MIMIC-III是由麻省理工学院和贝斯以色列迪卡普医学中心开发的最大的公开可用数据库之一,包含重症监护病房患者的去识别化健康数据。MIMIC-III包括2001年至2012年间在贝斯以色列迪卡普医学中心重症监护病房收治的超过38,000名患者的数据。第二个数据集,即本院EHR数据,是威斯康星大学卫生系统2008年至2021年间收治的成年患者(18岁及以上)的EHR子集。与MIMIC-III子集不同,本院数据集涵盖了所有医院环境的病程记录,包括急诊科、普通内科病房和专科病房。尽管这两个数据集来自不同的医院和科室,可能反映了不同的记录习惯,但两者都遵循SOAP格式的病程记录。
Gao等人[7,9]引入了一个从MIMIC-III中选取的包含1005份病程记录的子集,这些记录的“计划”部分标注了活动诊断,即ProbSum数据集。因此,我们应用这个数据集进行训练和评估,包括图模型的内在评估和诊断总结。本院数据集没有人类标注。然而,通过使用基于UMLS SNOMED CT词汇表的医学概念提取器解析文本,我们能够提取出属于“T047疾病和综合征”语义类型的CUI。我们将这些概念作为训练和评估图模型的真实数据。最终的本院数据集包含4815份病程记录。我们在表1中呈现了描述性统计数据。与MIMIC-III相比,本院数据集在输入中包含更多的CUI,导致输出的CUI数量增加。此外,MIMIC-III涵盖了比本院病程记录更广泛的抽象概念。

图模型开发概述

本节介绍DR.KNOWS的架构设计。DR.KNOWS模型旨在通过将UMLS中的结构化临床知识整合到患者特定的诊断预测中,增强自动化的诊断推理。通过利用基于图的方法,DR.KNOWS从UMLS中检索并排序相关的知识路径,确保只考虑与患者特定状况相关的临床信息。使用图神经网络,DR.KNOWS将UMLS知识图谱的拓扑信息整合到概念表示中,以更好地确定每个节点与患者特定状况的相关性。

架构概述

如图3所示,从输入患者文本中识别出的所有分配了CUI的UMLS概念被用来从构建的大型UMLS知识图谱中检索1跳子图。图中的每个节点代表一个CUI;因此,我们在整个文中将“节点”和“概念(CUI)”交替使用。这些1跳子图通过堆叠图同构网络(SGIN)进行编码,该网络生成节点嵌入,捕获邻近概念信息和预训练的概念嵌入。我们选择SGIN进行节点嵌入,因为它与Weisfeiler-Lehman图同构测试的表达能力相匹配,最大化了图神经网络捕获有意义表示的能力。得到的节点嵌入作为路径嵌入的基础,进一步由路径编码器处理。

DR.KNOWS(诊断推理知识图谱系统)模型架构。输入概念(“女性”、“发烧”等)由字母和数字组合表示的概念唯一标识符 (CUI) 表示(例如“C0243026”和“C0015967”)。SapBERT:来自 Transformers 的自对齐预训练双向编码器表示。
DR.KNOWS(诊断推理知识图谱系统)模型架构。输入概念(“女性”、“发烧”等)由字母和数字组合表示的概念唯一标识符 (CUI) 表示(例如“C0243026”和“C0015967”)。SapBERT:来自 Transformers 的自对齐预训练双向编码器表示。

路径编码器模块随后通过检查这些1跳路径与输入文本和概念表示的语义和逻辑一致性来评估这些路径,并为每条路径分配相关性分数。这些路径上的最高N个分数,聚合了每个节点邻近路径的分数,指导选择下一个跳转的节点。如果没有找到合适的诊断节点,则通过为当前节点分配自环来终止路径探索。
虽然检索增强生成系统的主流技术严重依赖于向量表示和余弦相似度来检索和排序候选文本,但我们的工作通过增加两层额外的设计超越了这一点。首先,我们利用图结构的表达能力来增强检索过程。其次,我们不仅根据它们的嵌入选择路径,而是通过注意力网络对路径-概念关系进行编码,确保更准确且与上下文相关的选择过程。在接下来的段落中,我们将详细介绍DR.KNOWS架构的每个组成部分。

上下文化的节点表示

我们基于 SNOMED CT CUI 和语义关系定义确定性 UMLS KG G = VE ,其中V是一组 CUI,E是一组语义关系。给定一个输入文本x,包含一组源 CUI V src ⊆ V及其一跳关系E src ⊆ E,我们可以为每个源节点v src ⊆ V src构建关系路径P = { p 1 , p 2 , … p j } ,使得p j = { v 1 , e 1 , v 2 , … e j −1 , v j },j ⊆ J,其中J是源节点v src可以达到的最大长度并且是不确定的。关系e被编码为独热嵌入。我们将v i的所有概念名称与特殊标记(例如 [SEP] (“分隔符”))连接起来,使得l i = [名称 1 [SEP] 名称 2 [SEP]…],并使用来自 Transformers 的自对齐预训练双向编码器表示(SapBERT)对l i进行编码 [34 ] 以获得h i作为概念表示。这允许 CUI 表示作为其相应概念名称的上下文化表示。我们选择 SapBERT 是因为它的基于对比学习的训练,它可以区分相似的概念及其同义词。它在实体链接任务上进行了评估,并表现出了最先进的性能。h i以成为节点表示:
在这里插入图片描述
N(v i )表示节点v i的邻居节点集合,是节点v i在层k的表示,ϵ (k)是层k的可学习参数,MLP (k)是层k的多层感知器。GIN使用图卷积和非线性迭代地聚合邻域信息,对集合内节点之间的相互作用进行建模。此外,引入了堆叠机制来组合多个GIN层。通过堆叠GIN层来计算层K (最后一层)的最终节点表示v i,其中[…;…]表示矩阵连接。在这里插入图片描述
我们通过实证观察发现,某些类型的 CUI 不太可能产生有用的疾病路径,例如,概念“最近”(CUI:C0332185)是一个时间概念,与其相关的邻居对预测诊断的用处较小。我们设计了一种基于词频-逆文档频率的加权方案,为更相关的 CUI 和语义类型分配更高的权重:
在这里插入图片描述
然后将W CUI乘以相应的h i,为概念表示分配加权表示。

路径推理与排序

对于每个节点表示h i ,我们使用h i的在这里插入图片描述集合邻域的n 跳和相关关系边来生成相应的路径嵌入,其中t是节点及其相关邻域和关系的索引:在这里插入图片描述
你好,如果 n=1
π = {
在这里插入图片描述,否则
在这里插入图片描述
其中,“FFN”是前馈网络,n是子图G src中的跳数。路径嵌入pi是第一跳的节点嵌入自身,并随着路径延伸到下一跳而与新节点和边递归聚合。

为了确定每条路径与患者特定症状的相关性,我们使用了两种注意力机制——多头注意力 (MultiAttn) 和三线性注意力 (TriAttn)——来计算每条路径的分数S。这两种机制都使用患者的输入文本表示h x和由 SapBERT 编码的 CUI 输入列表h v来捕获输入数据中明确而复杂的关系。MultiAttn 用于明确捕获输入文本、概念列表和当前路径之间的关系,而 TriAttn 用于通过 3 个矩阵的内积自动学习这些复杂关系。如图 2,对于路径根据输入的患者描述尝试实现的每一次跳跃,候选概念可以添加相关信息、不提供新信息并保持中立,或者与上下文中已经存在的信息相矛盾。

使用 MultiAttn,我们定义上下文相关性矩阵H i和概念相关性矩阵Z i如下:
在这里插入图片描述
这些相关性矩阵的灵感来自于先前关于自然语言推理的研究[35 ],分别通过矩阵连接、差异和乘积来表示中立、矛盾和蕴涵等逻辑关系。另外,TriAttn 通过 3 个注意力图来学习复杂的关系:

在这里插入图片描述
h x、h v和p i具有相同的维度 D,而ϕ是 MLP 参与者。最后,我们汇总所有候选节点上的 MultiAttn 或 TriAttn 分数,并根据汇总注意力分数为下一次迭代选择前 N个节点(概念) VN :
在这里插入图片描述
通过比较候选路径的注意力分数,路径排序器选择与每个患者症状最相关的前 N ​​个节点,从而最大化上下文相关性。

损失函数

我们的损失函数由两部分组成:CUI 预测损失 L pred和对比学习损失L CL:

L = L预测+ L CL

对于 CUI 预测损失,我们使用二元交叉熵损失来计算预测节点V N是否在黄金标准标签Y中:

在这里插入图片描述
其中M是金标签组的数量。对于对比学习损失 LCL ,我们鼓励模型通过与正样本和负样本的比较来学习有意义且有判别力的表示:

在这里插入图片描述
其中 A i是锚嵌入,定义为 h x ⊙ h v,表示输入文本和概念表示。Σ i表示一组索引i的总和,通常表示不同的训练样本或对。受到 Hu 等人的研究启发 [29 ],我们构造了cos (A i , f i )和cos (A i , f i– )来分别计算A i与正特征f i+或负特征f i–之间的余弦相似度。正特征表示正确通向基本事实概念的路径,而负特征则体现虽然从源头开始但最终到达错误概念的路径。当锚点与其正特征之间的相似度不显著大于相同锚点与负特征之间的相似度时,该方程测量损失,同时考虑所需分离的裕度。

我们设计了一种训练算法,以迭代方式选择和排序最相关的路径以进行扩展。该算法有助于减少计算需求,因为它不会在 1 次传递中对所有 n 跳路径进行排序。

基础模型的选择和实验设置

我们的研究围绕以下问题展开:将 DR.KNOWS 作为基于知识路径的提示提供者在多大程度上影响语言模型在诊断总结中的表现?

我们展示了来自两个不同基础模型的结果,它们的参数规模差异很大,即 T5-Large,它包含 7.7 亿个参数[12 ];以及具有 1540 亿个参数的 GPT-3.5-Turbo[13 ]。具体来说,我们被授予了访问 GPT-3.5-Turbo 模型的限制版本的权限,该模型是高性能语言模型 ChatGPT 的底层框架。

这两个模型代表了语言模型演进的主流方向:较小的模型(如 T5)更容易控制,而较大的模型(如 GPT)可以生成具有相当规模和能力的文本。我们的调查重点是评估 T5 在微调场景中的表现以及 GPT 模型在零样本设置中的表现。我们的主要目标不仅仅是展示前沿成果,而且还要严格审查将图模型生成的预测路径作为辅助知识贡献者纳入其中的潜在影响。

我们选择了 3 个不同的 T5-Large 变体,使用 ProbSum 汇总数据集进行微调。所选的 T5 模型包括 vanilla T5 [12 ],这是一个广泛应用于各种 NLP 任务的基础模型;Flan-T5 [36 ],已使用教学方法进行了微调;和 Clinical-T5 [37 ],它是针对 MIMIC 数据集进行专门训练的。

鉴于我们的工作涵盖公共 EHR 数据集 (MIMIC-III) 和包含受保护健康信息的私有 EHR 数据集 (内部),我们使用 3 种不同的计算环境进行了训练。具体来说,MIMIC-III 上的大多数实验都是在 Google 的云计算平台上进行的,使用 1 到 2 个 NVIDIA A100 40 GB 图形处理单元 (GPU) 和配备 1 个 RTX 3090 Ti 24 GB GPU 的传统服务器。内部 EHR 数据集存储在医院研究实验室内的工作站上。该工作站在符合《健康保险流通与责任法案》的网络中运行,确保受保护的电子健康信息的机密性、完整性和可用性,并配备单个 NVIDIA V100 32 GB GPU。要使用 ChatGPT,我们使用了托管在我们本地云基础设施上的内部 ChatGPT-3.5-Turbo 版本。没有数据发送给 Microsoft 或 OpenAI。这种设置确保没有数据传输到 OpenAI 或外部网站,并且我们严格遵守 MIMIC 数据使用协议。

虽然 GPT 可以处理 4096 个 token,但 T5 限制为 512 个 token。为了确保公平比较,我们将进度记录的主观和评估部分作为输入。这些部分提供了医生对患者病情的评估,并且符合 T5 的 512 个 token 限制。这与主要包含数值的客观部分不同。

推动基础模型整合图知识

为了将图模型预测的路径纳入提示,我们应用了一种使用领域独立提示模式的提示工程策略,如 White 等人在研究中所述 [38 ]。我们的提示由 3 个主要组件构成:指定角色的输出自定义;输出格式和模板;以及上下文控制模式,它们直接链接到输入注释和 DR.KNOWS 的输出。在我们的测试集中,对于少数无法找到路径的输入 EHR(<20 个实例),我们直接将输入输入到 LLM(T5 和 ChatGPT)中以生成诊断。

鉴于我们的核心目标是评估提示能在多大程度上增强模型的性能,测试一系列提示变得势在必行。Gonen 等人[39 ] 提出了一种名为 BETTERPROMPT 的技术,该技术依赖于“通过估计语言模型可能性来选择提示”。本质上,我们通过一组手动任务特定提示启动该过程,随后通过 ChatGPT 促进的自动释义和反向翻译来扩展提示集。然后,我们根据这些提示的困惑度得分(对任务输入的代表性样本取平均值)对这些提示进行排序,最终选择那些表现出最低困惑度的提示。在该框架的指导下,我们手工制作了 5 组提示来整合路径输入,这些提示在 Table S1 中以可视化方式表示。具体来说,前 3 个提示是由非医学领域专家(计算机科学家)设计的,而最后 2 组提示是由医学领域专家(重症监护医生和医学信息学家)开发的。我们将最后 2 个提示(具有医学角色)指定为“主题提示”,将前 3 个提示指定为“非主题提示”。

所选的最终提示来自一个困惑度最小的模板,该模板将 DR.KNOWS 模型中预测的知识路径作为输入的一部分。我们探索了两种路径表示方法:“结构化”,使用“→”链接源概念、边(关系名称)和目标概念;“子句”,通过将源概念和目标概念与其关系直接连接,将路径转换为子句式文本。初步实验表明,“结构化”表示法性能优异,因此我们在报告结果中专门使用了它。为基础模型选择的最终提示是从主题专家精心设计的提示中改写的提示:“假设您是一名配备知识图谱的医疗专业人员,并从输入注释中生成前三个直接和间接诊断。<输入注释>……这些是知识路径:<路径 1>;<路径 2>……使用分号分隔诊断,并从<推理>开始解释您的推理。”对于输入不包含路径的设置,我们仅使用带有医疗角色和任务描述的提示,如下所示:“想象你是一名医疗专业人员,并从输入说明中生成前三个直接和间接诊断。

评估指标

定量分析的自动评估指标

我们对 DR.KNOWS 模型进行了 2 次评估:第一次是内在评估,以确定图形模型可以检索多少个黄金标准概念。第二次评估检查了检索到的知识路径是否可以增强 LLM 的诊断预测任务。关于第一次评估,我们的主要目标是评估 DR.KNOWS 使用 CUI 预测诊断的有效性。我们使用概念提取器分析计划部分中的文本,具体提取归类为语义类型 T047 疾病和综合症的 CUI。我们只包括保证至少有 1 条路径连接的 CUI,目标和输入 CUI 之间的最大长度为 2 跳。这些选定的 CUI 构成了“黄金标准”CUI 集,用于训练和评估模型的性能。由于 DR.KNOWS 预测前 N 个 CUI,我们按以下方式测量了 Recall@N 和 Precision@N:

在这里插入图片描述
还将报告F分数,即召回率和准确率之间的调和平均值。

为了评估基础模型在 EHR 诊断预测方面的表现,我们应用了上述评估指标以及面向回忆的要点评估替补模型 (ROUGE) [40 ]。具体来说,ROUGE 是一组广泛使用的指标,旨在通过将机器生成的文本与参考文本进行比较来评估其质量。我们使用了基于最长公共子串的 ROUGE-L 变体;以及侧重于二元匹配的 ROUGE-2 变体。这两个 ROUGE 指标都用于 ProbSum 共享任务。

为了报告自动化指标的结果,我们提供了测试集中所有样本的平均分数,以及 1000 个引导样本的 95% CI。

定性分析的人工评估

现有的 AI 评估框架(例如用于生成放射学报告的框架)并未解决 LLM 的诊断预测问题,因此存在很大差距。为了解决这个问题,我们之前的工作引入了一种基于 Safer DX Instrument 的新人类评估框架 [41 ],旨在为评估 LLM 在诊断任务中的表现提供一种结构化方法。在本研究中,我们利用该框架评估知识路径对 LLM 诊断预测的影响,具体是通过对 LLM 输出的“推理”进行定性分析,旨在衡量模型诊断推理过程的深度和准确性。

具体来说,我们从以下方面评估了模型生成的“推理”部分:(1)阅读理解,(2)基本原理,(3)知识回忆,(4)诊断推理的省略,和(5)抽象和有效抽象。阅读理解旨在捕捉模型是否理解进度记录中的信息。基本原理旨在捕捉不正确的推理步骤的包含。知识回忆旨在捕捉错误事实的幻觉以及输出中不相关事实的包含。诊断的省略与前面提到的目的相同,即捕捉模型未能支持结论或为诊断选择提供证据的情况。抽象和有效抽象旨在评估输出每个部分中存在的抽象量。这是为了确定知识路径如何影响产生的输出类型以及模型是否能够使用抽象。省略以及抽象和有效抽象都被格式化为是或否问题。阅读理解、基本原理和知识回忆通过 1 到 5 的李克特量表进行评估,其中 1 表示非常同意但质量较差,5 表示非常不同意(代表质量较高)。

我们招募了 2 名医疗专业人员,使用我们制定的人工评估指南评估 LLM 输出。指南、评估培训和注释者间一致性的完整细节在另一份出版物(目前正在审查中)中报告。评估框架使用 REDCap(研究电子数据捕获;范德比尔特大学)网络应用程序向评估者提供输入注释、黄金标准诊断和模型预测诊断。评估者在纵向框架中被视为独立的团队,评估具有 KG 路径的模型和不具有 KG 路径的模型,涉及 2 个定义的事件。提供了详细的分步指南,用于在 REDCap 中完成评估。

两名资深临床信息学医师担任完成人工评估的两名医疗专业人员的顾问、试点测试员和培训师。这两名医师使用 5 个样本案例反复完善提供给评估员的指南;这些样本评估也作为评估员在培训期间参考的示例。评估指南包括对人工评估框架各个方面的评估分数含义的清晰描述以及完整的示例工作流程。

结果

DR.KNOWS 对预测诊断概念的内在评估

我们将 DR.KNOWS 与 QuickUMLS 进行了比较,后者是一种概念提取器基线,可从原始文本中识别医学概念。我们获取输入文本,使用 QuickUMLS 对其进行解析,然后输出概念列表。表 2显示了 2 个 EHR 数据集(MIMIC 和内部)的结果。不同的前 N ​​个值的选择取决于 2 个数据集之间的文本长度差异。与基线相比,DR.KNOWS 在两个数据集上都表现出比 QuickUMLS 更高的精度和F分数,在 MIMIC 数据集上的精度分数为 19.10(95% CI 17.82-20.37),而 13.59(95% CI 12.32-14.88),在内部数据集上的精度分数为 22.88(95% CI 20.92-24.85),而 12.38(95% CI 11.09-13.66)。此外,其F分数为 25.20(95% CI 23.93-26.48),在内部数据集上的 F 分数为 25.70(95% CI 24.06-27.37),分别超过了比较分数 21.13(95% CI 19.85-22.41)和 20.09(95% CI 18.81-21.37),突显了 DR.KNOWS 在准确预测诊断 CUI 方面的有效性。 DR.KNOWS 的 TriAttn 变体在两个数据集上的表现始终优于 MultiAttn 变体,F分数为 25.20(95% CI 23.93-26.48),而 MultiAttn 变体为 23.10(95% CI 21.83-24.39),在内部数据集上的 F 分数为 25.70(95% CI 24.06-27.37),而 MultiAttn 变体为 17.69(95% CI 16.40-18.96)。概念提取器基线获得了最高的召回率分数——在 MIMIC 数据集上为 56.91,在内部数据集上为 90.11——因为它识别了所有与参考 CUI 重叠的输入概念,尤其是在内部数据集上,该数据集主要是提取数据集。对 DR.KNOWS 模型进行训练,平均每个时期需要 2/3 小时(SD 1.22)来训练 5000 个样本,使用 8000 MB 的 GPU 内存。

评估 DR.KNOWS 对诊断预测的影响

ProbSum 测试集上每个基础模型的最佳系统如下:表 3,包括具有 DR.KNOWS 提供的预测路径的模型和不具有 DR.KNOWS 提供的预测路径的模型。总体而言,基于提示的 T5 微调在所有指标上都超越了 ChatGPT 基于提示的零样本方法,而 ChatGPT 基于提示的少样本方法表现出与 T5 相当的性能。值得注意的是,结合路径的模型(尤其是 CUIF分数)显示出显着的改进。带有路径提示的 vanilla T5 模型表现出色,获得了最高的 ROUGE-L 分数(30.72,95% CI 30.40-32.44)和 CUIF分数(27.78,95% CI 27.09-29.80)。这个 ROUGE-L 分数本可以在 ProbSum 排行榜上排名第三 [27 ],值得注意的是,排名前 2 位的系统都采用了集成方法[10,11 ]。

人工评估结果

注释过程结束后,两名医疗专业人员完成了一组监督评估,当他们与医师培训师和彼此的 κ 系数达到 0.7 时,即被视为已获得验证。

尽管 T5 和 ChatGPT 模型在自动化指标上表现出相似的性能,但它们的输出却存在很大差异。由于缺乏指令调整,T5 模型无法充分响应要求生成 部分的提示。因此,我们的人工评估完全集中在 ChatGPT 产生的输出上。我们对表现最佳的 ChatGPT 输出(5 次方法)进行了人工评估,将场景与有 KG 和没有 KG 的 DR.KNOWS 知识路径进行了比较。最终评估集包括 92 个输入注释和 2 组 ChatGPT 预测的文本。

结果报告于图 4 . 首先,诊断的遗漏率没有显著增加,使用 KG 时为 16% (15/92),而未使用 KG 时为 10% (9/92)(P=.16)。关于基本原理(正确推理),使用 KG 的 ChatGPT 与人类评估者的一致性(51/92, 55%)高于未使用 KG 的 ChatGPT(46/92, 50%;P<.001)。在抽象类别(评估模型输出中抽象的存在)中,肯定回答从 88%(81/92;没有 KG)明显下降到 78%(71/92;有 KG)(P=.03),表明包含 KG 路径时所需的抽象更少。在有效抽象,有利于 KG 路径(P=.002)。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值