本文是LLM系列文章,针对《A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY》的翻译。
关于评估医疗行业中大型语言模型应用程序的综合调查
摘要
自 2017 年 Transformer 架构问世以来,GPT 和 BERT 等大型语言模型 (LLM) 已经取得了长足的发展,凭借其在语言理解和生成方面的高级能力影响了各个行业。这些模型已显示出改变医疗领域的潜力,凸显了专门的评估框架以确保其有效和合乎道德的部署的必要性。这项全面的调查描述了 LLM 在医疗保健领域的广泛应用和必要评估,强调了实证验证的迫切需求,以充分利用它们在增强医疗保健结果方面的能力。
我们的调查旨在提供对 LLM 在临床环境、医学文本数据处理、研究、教育和公共卫生意识中的应用的深入分析。我们首先探讨了 LLM 在各种医疗应用中的作用,详细介绍了它们根据临床诊断、医学文本数据处理、信息检索、数据分析和教育内容生成等任务中的表现进行评估。后续部分对所采用的评估方法和指标进行了全面讨论,包括模型、评估器和比较实验。我们进一步检查了这些评估中使用的基准和数据集,为问答、总结、信息提取、生物信息学、信息检索和一般综合基准等任务提供了基准的分类描述。这种结构确保了对 LLM 在医学领域的有效性、准确性、可用性和道德一致性的评估方式的透彻理解。
通过这项调查,我们的目标是让医疗保健专业人员、研究人员和政策制定者全面了解 LLM 在医疗应用中