SCORE评价框架是一个针对大型语言模型(Large Language Model, LLM)的综合性评价体系,专注于评估LLM在医疗健康领域的表现。这一框架包括五个核心要素:安全性(Safety)、一致性(Consensus)、客观性(Objectivity)、可重复性(Reproducibility)和可解释性(Explainability)。这些要素旨在确保LLM的应用不仅在技术上有效,而且在实际应用中安全、可靠和合乎伦理。以下是对SCORE框架中每个要素的详细介绍。
表1:传统文本摘要和机器翻译任务的量化指标
表2:作者提出的SCORE框架
一、安全性(Safety)
安全性是指LLM生成的响应不能包含可能误导用户或导致身体和心理不良影响的内容。特别是在医疗健康领域,LLM的回答可能直接影响患者的健康管理,因此必须确保其准确性和安全性。一个安全的LLM系统在提出诊断或推荐治疗时必须经过严格的测试和验证,以防止错误信息的传播。例如,在为患者提供诊断建议时,模型的错误或误导性信息可能会导致不适当的治疗,甚至对患者造成直接伤害。因此,确保LLM在医疗领域的安全性是至关重要的。
二、一致性(Consensus)
一致性是指模型生成的响应必须与临床证据以及国家或国际专业机构的共识保持一致。这意味着LLM生成的建议应基于现有的医学指南和专业意见,从而确保其在医学实践中的可信度和可靠性。医疗健康是一个高度专业化的领域,LLM需要确保其提供的信息符合权威的临床实践标准,以避免不必要的偏差和风险。例如,在推荐用药时,模型的建议必须与最新的医学指南一致,确保不会对患者产生不必要的风险。
三、客观性(Objectivity)
客观性是指LLM的响应应公平公正,不因疾病、性别、种族、社会经济地位和文化背景而存在偏见。特别是在医疗健康领域,确保模型的客观性至关重要,以避免在诊断和治疗建议中出现任何形式的歧视或不公平对待。例如,某些疾病在不同种族中的表现可能有所差异,LLM需要基于客观的医学知识,确保在回答涉及种族差异的问题时不带偏见。此外,LLM还应避免在药物推荐或治疗选择上因性别或文化背景而产生差异。
四、可重复性(Reproducibility)
可重复性是指对同一个问题重复生成的响应在上下文一致性上应保持一致。这并不意味着生成的每个回答都要逐字相同,而是要求生成的回答在内容和逻辑上应保持一致性。在医疗健康场景中,可重复性尤为重要,因为不一致的回答可能导致医生和患者对信息的误解,进而影响到医疗决策。例如,患者在咨询某种治疗方法的风险时,模型需要保证其多次生成的回答在内容上保持一致,以确保患者能够理解并信任模型提供的信息。
五、可解释性(Explainability)
可解释性是指模型生成的响应应附带合理的解释,包含推理过程和相关的补充信息(如参考文献或链接)。对于医疗健康领域的应用,模型的可解释性尤为重要,因为这有助于医生和患者理解模型提供的建议背后的逻辑和依据。例如,当模型推荐某种药物治疗时,它应该能够提供相关的临床试验数据或医学指南,以支持其建议的合理性。可解释性不仅增强了模型在专业人员中的可信度,也有助于提高患者对医疗决策的理解和参与度。
SCORE框架的应用价值
SCORE框架的提出旨在解决LLM在医疗健康领域应用中的一些关键问题。传统的LLM评估方法多集中于文本相似性,主要是将生成的响应与参考文本进行对比,以评估其准确性。然而,这些评估方式在医疗健康领域并不总是适用,因为临床问题往往不存在唯一的“标准答案”,而且对医学建议的评估需要考虑上下文和临床专业知识的综合因素。SCORE框架通过引入更主观和定性的评估标准,弥补了传统评估方法的不足。
在实际应用中,SCORE框架可以为评估LLM在医疗健康领域的表现提供更全面的视角。例如,在一个针对眼科和药物相关问题的实验中,使用SCORE框架对GPT-4生成的回答进行评估,发现虽然其在传统的量化评估指标(如BLEU、ROUGE等)上的表现不佳,但在SCORE框架下,其生成的回答在临床准确性和一致性方面表现较为理想。因此,SCORE框架能够更好地评估LLM在提供临床建议时的有效性和可靠性。
与现有评估方法的结合
SCORE框架还可以与现有的其他LLM评估方法结合使用,以进一步提高评估的全面性和有效性。例如,可以在初步使用SCORE框架对LLM进行评估后,再进行转化价值和治理方面的评估,以确保LLM不仅在技术上合格,还符合医疗伦理和治理标准。此外,SCORE框架中的各个要素还可以嵌入到模型的输入提示中,以指导模型生成更符合高质量标准的回答。
在未来,SCORE框架还有望与自动化评估工具相结合,实现对LLM生成回答的高效评估。目前已有研究探索了使用GPT-4进行自动化评估的方法,这些方法与人类专家的评估结果高度一致。因此,SCORE框架中的一些要素也可以应用于自动化评估工具中,以提高评估的效率和一致性。
图:关于某个药物相关问题的问答示例。GPT4-omni生成的对此问题的回答(GPT4-omni (1))显示在绿色表格中。为了评估SCORE框架中的“再现性”,对同一问题还生成了GPT4-omni (2)和(3)的回答。量化得分显示在黄色表格中,而使用SCORE框架进行的定性评估显示在蓝色表格中。
结论
随着LLM能力的不断扩展,仅依靠传统的量化评估指标已经无法全面评估这些生成式AI模型,特别是在医疗健康等敏感领域。通过引入安全性、一致性、客观性、重复性和可解释性等因素,SCORE框架确保LLM在这些领域的应用不仅准确可靠,而且符合伦理和安全标准。SCORE框架为LLM在医疗健康中的应用提供了一个多维度的评价标准,有助于确保这些模型的输出是安全、可信和符合医学专业标准的,从而在改善医疗服务质量的同时,减少可能的风险和偏差。
通过SCORE框架,未来的LLM不仅能够更好地理解和生成自然语言,还能够在实际应用中展现出更高的可信度和安全性。这一框架为未来基于LLM的医疗应用提供了一个可行的评估标准,有助于推动生成式AI在医疗领域的安全、有效和合乎伦理的应用。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。