一、背景与意义
随着人工智能技术的快速发展,大型语言模型(Large Language Models, LLMs)在各个领域的应用越来越广泛,尤其是在医疗领域。LLMs,如ChatGPT、Google Bard等,已经被证明能够在大量文本数据上进行训练,表现出在人类语言处理和生成方面的卓越能力。由于其强大的语言生成和理解能力,LLMs在客户服务、聊天机器人和教育等领域已有成功应用。近年来,LLMs在医学领域的应用也逐渐增加,特别是在医疗教育、临床决策支持和医学文献分析方面。然而,要确保LLMs能够在医学领域提供准确、可靠的医疗信息,其性能评估尤为重要。
现有文献显示,LLMs需要在人类水平的医学知识和推理评估中表现出色,才能赢得医疗工作者的信任。然而,虽然已有一些关于LLMs的性能评估研究,但目前仍缺乏一个系统性的、针对医学领域LLMs评估的框架。为了填补这一空白,本研究通过回顾现有LLMs在医学领域的评估研究,分析这些研究所使用的方法,旨在为未来LLMs评估研究的设计提供参考依据。
二、方法
本研究采用范围综述(Scoping Review)的方法,系统性地回顾了现有的LLMs评估研究。综述按照PRISMA扩展指南(PRISMA-ScR)进行,研究的时间范围为2023年1月1日至2023年9月30日,涵盖了PubMed、EMBASE和MEDLINE三个数据库。搜索关键词包括“"Large Language Model*”、“evaluation, assessment, performance, and comparison”等,以及商业化LLMs工具如ChatGPT、Google Bard和微软的Bing Chat。由于LLMs术语在2023年才开始被广泛使用,研究中特意未使用MeSH术语,以便反映最新的研究趋势。
纳入和排除标准为文章必须是英文且聚焦于医学领域LLMs的评估。排除的文章类型包括会议摘要、社论、评论、研究信函、致编辑信以及意见信,牙科和药学领域的文献也不在本次综述的讨论范围内。最终共有142篇文章符合筛选标准,纳入了研究分析。
在数据提取和分析过程中,研究总结了关于LLMs评估方法、所用模型及其在不同医学领域的应用情况。针对基于测试的评估方法,分析了问题的数量、重复测量、提示工程(例如少样本学习和角色设定)、附加分析(如问题难度)和主要结果。对于医学专业人员的评估,分析了查询数量、重复测量、评估者人数、提示工程、评估工具和来源、评估项目及其使用的尺度。
三、结果
1. 文献特征
在142篇符合条件的文献中,LLMs的评估主要分为两类:基于测试的评估(53篇,37.3%)和由医学专业人员进行的评估(80篇,56.3%)。还有少数研究采用了混合评估方法(9篇,6.3%),其中一些文章结合了测试和专家评估(4篇,2.8%)。
2. LLMs的模型使用情况
在研究中共使用了218个LLM模型,其中最常用的是OpenAI的GPT-3.5(114个,52.3%),其次是GPT-4(66个,30.1%)。Google的Bard(15个,6.9%)和微软的Bing Chat(12个,5.5%)也是常用的模型。一些研究者还通过微调模型开发了自己的模型(3个,1.4%)。
3. 医学领域的应用
LLMs在多个医学领域进行了应用,其中内科是最常见的应用领域(23篇,16.2%),其次是放射学(16篇,11.3%)和眼科(15篇,10.6%)。此外,还有一些研究未具体归属到某个医学专业(19篇,13.4%),主要是通过考试来验证LLMs的表现。
4. 基于测试的评估
对于基于测试的评估方法,大多数研究使用了少于100道题目(18篇,29.0%),有一些研究使用了200-300道题目(14篇,22.6%),而仅有少数研究使用了500道题目或以上(11篇,17.7%)。关于重复测量,约四分之三的研究没有进行重复测量(47篇,75.8%),而部分研究进行了2到4次重复测量。仅有少数研究(8篇,12.9%)使用了提示工程来优化LLMs的表现,主要通过角色设定或少样本学习的方式进行。
5. 医学专家评估
对于由医学专家进行的评估,54篇研究(64.3%)使用了50道或更少的查询问题。大多数研究中,评估者的数量为2人(43篇,48.3%),评估内容涵盖了准确性、信息质量、完整性和可复现性等方面。此外,14篇研究(14.7%)也使用了提示工程来改进LLMs的表现。
6. 提示工程的重要性
研究表明,提示工程(prompt engineering)对LLMs的表现有显著影响。LLMs的响应可以因提示的不同而大相径庭,因此,在设计提示时需要非常精确。未来的研究建议应提供提示的补充材料,以确保后续研究能够复现结果。
7. 可重复性的重要性
可重复性是评估LLMs性能的关键。一些研究通过多次测量来确保结果的稳定性,而LLMs的可重复性在90-100%之间。这说明尽管模型生成的结果可能在一定范围内有所不同,但仍需更多的重复测量来增强其可信度。
四、结论
本研究系统回顾了当前医学领域中LLMs的评估方法,发现LLMs在医学教育、临床决策支持和诊断中的应用潜力巨大。通过基于测试和医学专业人员的双重评估方式,LLMs在多个医学专业的应用得到了验证。然而,由于医学领域对准确性要求极高,因此在广泛应用LLMs之前,还需要进一步的评估以确保其提供的信息安全、准确和可信。
研究建议未来在LLMs评估中应采用系统的提示工程方法,并注重评估结果的可重复性。此外,未来的研究应该设计一个框架,用于系统性地评估LLMs在医学中的表现,特别是针对其推理过程和对复杂医学问题的应对能力。通过这样的框架,LLMs有望为医疗行业带来显著的改进,并帮助解决当前医疗工作中的一些关键挑战。
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】