超越幻觉:AI在创建信任感医疗记录中的新突破!
论文:https://arxiv.org/pdf/2402.15422.pdf
代码:https://github.com/stefanhgm/patient_summaries_with_llms
患者在医院出院后,经常不太明白他们的病情以及接下来应该做什么。
研究表明,提高出院时给患者的信息沟通质量可以帮助他们更好地遵循治疗计划,减少重新入院的情况。
但是,编写易于患者理解的医疗总结既困难又耗时,而且医护人员已经很忙了。
这里提出了几种可能的解决方法:
- 使用简单语言写总结:为患者提供一个用他们能理解的语言写的总结,这样他们就能更好地理解自己的健康状况和需要做什么。
- 改进出院时的沟通:确保患者在出院时清楚地知道他们的诊断结果和后续的医疗计划,这可以帮助减少不必要的再次入院。
- 利用人工智能:使用大型语言模型(比如GPT类模型)来帮助编写医疗总结,减轻医务人员的负担。但是,需要注意这些模型可能会产生不准确的信息。
- 精细调整和检查:通过精心挑选的例子来训练这些模型,并仔细检查生成的总结,可以减少错误信息的出现。
这张图是一个实验的简单说明。
- 从一个大型医疗记录数据库里选取了100个病历例子。
- 标记出了这些病历中的错误信息(幻觉),例如一个病历说病人有心脏病,但实际上病人只是头痛。
- 清除了这些错误,并改正了打字错误。
然后他们用清洁过的数据训练了人工智能模型,并测试模型是否能减少这种错误信息的产生,以及训练后的模型写的总结的质量如何。
他们发现:
- 经过专门训练的人工智能模型减少了错误信息。
- 改善数据后训练出的模型,在写医疗总结时表现得比之前更好。
结论就是,用精确和校对过的医疗数据来训练人工智能模型,可以帮助模型写出更准确、更高质量的医疗总结。
现有的问题是自动生成的摘要可能会出现“幻觉”,即创造出未在原始文本中的事实。
为了解决这个问题,研究人员提出了以下子解法:
-
后处理检测幻觉:通过从合成数据学习幻觉模型,或者识别出现在摘要中但未在来源文本中的标准化概念来检测幻觉。
之所以使用这个子解法,是因为它可以在文本生成后评估准确性。
-
改变生成模型:例如,通过在维基百科上建立基础,或者先将来源文本转换成三元组作为生成之前的中介。
之所以使用这个子解法,是因为它可以在生成过程中减少幻觉。
-
提高训练数据质量:可以是删除质量差的训练实例,也可以是通过改善训练实例的质量,比如使用对比学习在合成数据上修订参考文本。
之所以使用这个子解法,是因为改善训练数据可以直接影响生成模型的质量。
这三个子解法相结合可以在不同阶段(训练前、训练中、生成后)减少医疗文档摘要生成中的错误信息,从而提高自动生成的医疗文档摘要的准确性和可用性。
研究目标 - 减少医疗总结中的幻觉,并提高患者摘要的整体质量
在这项研究中,作者采取了一系列步骤来生成、评估并改进自动生成的患者出院摘要的质量。
数据集来源:
我们的数据来源是公开的MIMIC-IV-Note-DI数据库,它包含来自美国波士顿贝斯以色列女执事医疗中心的去标识化临床笔记。
这些笔记涵盖了14万多名患者的33万份临床文档,提供了详实的医疗信息。
预处理步骤:
在使用这些数据之前,我们设计了一个预处理管道来过滤和清洁数据。
这包括去除无关的内容、校正明显的错误,并将专业的医疗术语翻译成通俗易懂的语言。
此步骤旨在减少模型训练过程中可能出现的误导信息。
幻觉的标注过程:
我们开发了一个严格的协议来标记患者总结中的幻觉,定义了不同类型的错误,如不支持的状况、药物、程序等。
这个过程由医学专家进行,他们根据患者的病情和治疗过程对每份总结进行逐一审查。
LLMs的应用:
为了生成患者总结,使用了如LED、Llama 70B和GPT-4等LLMs。
这些模型在医疗文档自动化领域已显示出强大的性能,通过微调这些模型,使其能够处理和生成符合实际需要的患者摘要。
这张图展示了对于不同模型生成的患者出院小结的定性评估结果。
图中呈现了五个评估维度:相关性(Relevance, 表示缺失的关键事实),一致性(Consistency, 指幻觉的数量),简化(Simplification, 即医疗术语的使用),流畅性(Fluency, 句子水平),以及连贯性(Coherence, 总结水平)。
每个模型的表现以1到5的Likert评分尺度呈现,1分表示最差,5分表示最好。
评分颜色的深浅表示不同的得分水平,深色代表更高的评分。
这里包括了MIMIC原始数据、LED-large模型、Llama 70B模型以及GPT-4的5-shot和0-shot训练的结果。
从图中可以看出:
-
在所有五个维度中,GPT-4 0-shot的表现通常优于其他模型,尤其是在流畅性和连贯性方面。
-
相较于MIMIC原始数据和其他模型,GPT-4 5-shot在几乎所有维度上都有较高的得分,显示了其良好的性能。
-
Llama 70B模型在一致性方面的表现优于LED-large模型和MIMIC原始总结,但在其他方面则不尽相同。
-
LED-large模型在相关性评分最低,这可能表明在缺失关键事实方面的表现不佳。
-
Llama 70B模型:
训练在原始数据集上时,平均每个摘要产生了2.60个幻觉。
而在经过清洁后的数据集上,这一数字下降到了1.55个。
这表明通过优化训练数据,可以显著减少生成摘要中的错误信息。
- GPT-4模型:
GPT-4在处理5个样本(5-shot)的训练数据时,从原始数据的0.70个幻觉减少到了0.40个。
即使在没有训练样本的情况下(0-shot),GPT-4仍然只生成了0.45个幻觉,并且在保留关键事实方面表现更好。
质量强调:
尽管在数量上GPT-4的改进似乎不如Llama模型显著,但GPT-4在质量上的评价更高。
这包括相关性、一致性、简化度、流畅性和连贯性的评分,在所有这些维度上,GPT-4都展现了较高的质量,尤其是在无需特定训练样本的情况下(0-shot),这意味着模型更能理解和复现患者摘要的真实内容和风格。
代码库
代码库有啥?
-
数据处理和过滤的脚本:这些脚本用于从原始的MIMIC-IV-Note数据集中创建过滤后的数据集,以供后续研究使用。
-
幻觉标注工具:这些工具和脚本用于标注医疗摘要中的幻觉,这是识别和改进摘要质量的重要步骤。
-
模型训练和微调的代码:研究中使用的大型语言模型(LLMs),如GPT和Llama模型的训练和微调脚本,用于改善生成患者摘要的质量。
-
评估脚本:用于定量和定性评估生成的摘要质量的脚本,包括相关性、一致性、简化度、流畅性和连贯性的评分。
总结
这篇论文中研究的具体问题是提高自动生成患者出院小结的准确性和可理解性。
为了解决这个问题,研究者们提出了一个多步骤的解决方案。
解法:利用大型语言模型(LLMs)和数据清洁技术来改善患者出院小结的生成过程。
按照逻辑关系拆解如下:
-
子解法1:数据预处理
- 清洗和过滤MIMIC-IV-Note数据集,去除不相关内容。
- 之所以用这个子解法,是因为要创建一个高质量的数据集,作为模型训练的基础。
-
子解法2:幻觉标注
- 开发标注协议并手动标记数据中的幻觉。
- 之所以用这个子解法,是因为需要识别和分类生成文本中的错误信息。
-
子解法3:模型训练
- 使用经过数据清洁的数据集对LLMs进行训练和微调。
- 之所以用这个子解法,是因为准确的训练数据可以提高模型生成文本的准确性。
-
子解法4:生成文本质量评估
- 通过定性和定量方法评估生成的出院小结。
- 之所以用这个子解法,是因为需要对模型的输出质量进行全面的评估。
-
子解法5:自动化幻觉检测
- 尝试开发自动化工具来识别生成文本中的幻觉。
- 之所以用这个子解法,是因为自动化工具能提高标注效率和一致性。
如果把这个问题的解法总结为一个术语,它可以称为“数据驱动的增强学习”。
这个术语捕捉到了解决方案依赖于数据质量和模型学习能力的特性。
遇到需要提高自动生成文本准确性的问题时,特别是在医疗领域,这种解法尤为适用,因为在此领域中准确性至关重要,同时错误信息可能有严重后果。