本文是LLM系列文章,针对《A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models Safety, Consensus, Objectivity, Reproducibility and Explainability》的翻译。
摘要
适用于医疗保健领域大型语言模型 (LLM) 的综合定性评估框架,其扩展范围超出了所需的传统准确性和定量指标。 我们提出了评估 LLM 的 5 个关键方面:安全性、共识性、客观性、可重复性和可解释性 (S.C.O.R.E.)。我们建议 S.C.O.R.E. 可以成为未来基于 LLM 的模型的评估框架的基础,这些模型对于医疗保健和临床应用来说是安全、可靠、值得信赖和合乎道德的。
1 引言
2 方法
3 结论
随着LLM的功能不断扩展,超越传统定量指标(如准确性)的有效评估对于全面批评这些生成式 AI 模型并针对其领域(在本例中为医疗保健和临床使用)验证它们至关重要。通过结合安全性、共识性、客观性、可重复性和可解释性等因素,S.C.O.R.E 可以确保基于 LLM 的模型和系统不仅稳健和准确,而且在其应用中是安全、可靠、合乎道德和值得信赖的,特别是对于临床医学和医疗保健