主要内容
- 研究背景与目的:医疗记录的整理和分析耗费医护人员大量时间,自然语言处理(NLP)技术中的命名实体识别(NER)可将非结构化患者信息转换为结构化记录,助力医疗工作。临床大语言模型(cLLMs)在医疗领域应用广泛,但在识别患者详细病史实体(MHEs)方面研究有限。本研究旨在比较微调后的cLLMs识别与患者主诉(CC)、现病史(HPI)和既往、家族、社会史(PFSH)相关MHEs的性能,并通过错误分析探究影响模型准确性的文本特征。
- 研究方法
- 数据来源与标注:使用Medical Transcription Sample Reports and Examples(MTSamples)中的61份门诊相关临床笔记,标注了1449个MHEs,涵盖多种笔记类型。标注工作由本科生初标,经多位作者审核。
- 模型选择与微调:以零样本设置的GPT-4o为基线,微调7种cLLMs。采用两种微调方式,一种是基本微调,另一种是融入预识别基本医疗实体(BMEs)信息的微调。
- 模型评估