大语言模型LLMs在医学领域中的评估方法分析

AI老猴子

于 2024-10-10 10:43:45 发布

阅读量510

点赞数 11

文章标签：语言模型人工智能自然语言处理 AI大模型大模型 ai LLMs

本文链接：https://blog.csdn.net/star_nwe/article/details/142815281

版权

一、背景与意义

随着人工智能技术的快速发展，大型语言模型（Large Language Models, LLMs）在各个领域的应用越来越广泛，尤其是在医疗领域。LLMs，如ChatGPT、Google Bard等，已经被证明能够在大量文本数据上进行训练，表现出在人类语言处理和生成方面的卓越能力。由于其强大的语言生成和理解能力，LLMs在客户服务、聊天机器人和教育等领域已有成功应用。近年来，LLMs在医学领域的应用也逐渐增加，特别是在医疗教育、临床决策支持和医学文献分析方面。然而，要确保LLMs能够在医学领域提供准确、可靠的医疗信息，其性能评估尤为重要。

现有文献显示，LLMs需要在人类水平的医学知识和推理评估中表现出色，才能赢得医疗工作者的信任。然而，虽然已有一些关于LLMs的性能评估研究，但目前仍缺乏一个系统性的、针对医学领域LLMs评估的框架。为了填补这一空白，本研究通过回顾现有LLMs在医学领域的评估研究，分析这些研究所使用的方法，旨在为未来LLMs评估研究的设计提供参考依据。

二、方法

本研究采用范围综述（Scoping Review）的方法，系统性地回顾了现有的LLMs评估研究。综述按照PRISMA扩展指南（PRISMA-ScR）进行，研究的时间范围为2023年1月1日至2023年9月30日，涵盖了PubMed、EMBASE和MEDLINE三个数据库。搜索关键词包括“"Large Language Model*”、“evaluation, assessment, performance, and comparison”等，以及商业化LLMs工具如ChatGPT、Google Bard和微软的Bing Chat。由于LLMs术语在2023年才开始被广泛使用，研究中特意未使用MeSH术语，以便反映最新的研究趋势。

纳入和排除标准为文章必须是英文且聚焦于医学领域LLMs的评估。排除的文章类型包括会议摘要、社论、评论、研究信函、致编辑信以及意见信，牙科和药学领域的文献也不在本次综述的讨论范围内。最终共有142篇文章符合筛选标准，纳入了研究分析。

在数据提取和分析过程中，研究总结了关于LLMs评估方法、所用模型及其在不同医学领域的应用情况。针对基于测试的评估方法，分析了问题的数量、重复测量、提示工程（例如少样本学习和角色设定）、附加分析（如问题难度）和主要结果。对于医学专业人员的评估，分析了查询数量、重复测量、评估者人数、提示工程、评估工具和来源、评估项目及其使用的尺度。

三、结果

1. 文献特征

在142篇符合条件的文献中，LLMs的评估主要分为两类：基于测试的评估（53篇，37.3%）和由医学专业人员进行的评估（80篇，56.3%）。还有少数研究采用了混合评估方法（9篇，6.3%），其中一些文章结合了测试和专家评估（4篇，2.8%）。

2. LLMs的模型使用情况

在研究中共使用了218个LLM模型，其中最常用的是OpenAI的GPT-3.5（114个，52.3%），其次是GPT-4（66个，30.1%）。Google的Bard（15个，6.9%）和微软的Bing Chat（12个，5.5%）也是常用的模型。一些研究者还通过微调模型开发了自己的模型（3个，1.4%）。

3. 医学领域的应用

LLMs在多个医学领域进行了应用，其中内科是最常见的应用领域（23篇，16.2%），其次是放射学（16篇，11.3%）和眼科（15篇，10.6%）。此外，还有一些研究未具体归属到某个医学专业（19篇，13.4%），主要是通过考试来验证LLMs的表现。

4. 基于测试的评估

对于基于测试的评估方法，大多数研究使用了少于100道题目（18篇，29.0%），有一些研究使用了200-300道题目（14篇，22.6%），而仅有少数研究使用了500道题目或以上（11篇，17.7%）。关于重复测量，约四分之三的研究没有进行重复测量（47篇，75.8%），而部分研究进行了2到4次重复测量。仅有少数研究（8篇，12.9%）使用了提示工程来优化LLMs的表现，主要通过角色设定或少样本学习的方式进行。

5. 医学专家评估

对于由医学专家进行的评估，54篇研究（64.3%）使用了50道或更少的查询问题。大多数研究中，评估者的数量为2人（43篇，48.3%），评估内容涵盖了准确性、信息质量、完整性和可复现性等方面。此外，14篇研究（14.7%）也使用了提示工程来改进LLMs的表现。

6. 提示工程的重要性

研究表明，提示工程（prompt engineering）对LLMs的表现有显著影响。LLMs的响应可以因提示的不同而大相径庭，因此，在设计提示时需要非常精确。未来的研究建议应提供提示的补充材料，以确保后续研究能够复现结果。

7. 可重复性的重要性

可重复性是评估LLMs性能的关键。一些研究通过多次测量来确保结果的稳定性，而LLMs的可重复性在90-100%之间。这说明尽管模型生成的结果可能在一定范围内有所不同，但仍需更多的重复测量来增强其可信度。

四、结论

本研究系统回顾了当前医学领域中LLMs的评估方法，发现LLMs在医学教育、临床决策支持和诊断中的应用潜力巨大。通过基于测试和医学专业人员的双重评估方式，LLMs在多个医学专业的应用得到了验证。然而，由于医学领域对准确性要求极高，因此在广泛应用LLMs之前，还需要进一步的评估以确保其提供的信息安全、准确和可信。

研究建议未来在LLMs评估中应采用系统的提示工程方法，并注重评估结果的可重复性。此外，未来的研究应该设计一个框架，用于系统性地评估LLMs在医学中的表现，特别是针对其推理过程和对复杂医学问题的应对能力。通过这样的框架，LLMs有望为医疗行业带来显著的改进，并帮助解决当前医疗工作中的一些关键挑战。