【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge

在这里插入图片描述

文章主要内容

将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此,本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述

具体来说,旨在回答以下问题:

1)什么是LLMs,如何构建医学LLMs?

2)医学LLMs的下游表现如何?

3)如何在实际临床实践中使用医学LLMs?

4)使用医学LLMs会带来哪些挑战?

5)我们如何更好地构建和利用医学LLMs?

因此,本综述旨在提供医学中LLMs的机遇和挑战的洞见,并作为构建实用有效的医学LLMs的宝贵资源。医学LLMs的资源的定期更新列表可在 https://github.com/AI-in-Health/MedLLMsPracticalGuide 找到。

这篇文章主要关注于clinical临床医学方向的应用,但是一些模型以及挑战也是适用于biomedical方向的。

介绍

**对于第一个问题,我们总结了现有的医学LLMs,详细介绍了它们的基本结构、参数数量和用于模型开发的数据集。**此外,我们提供了这些模型构建过程的洞见。这些信息对于希望根据特定需求(如计算限制、私有数据和本地知识库)构建自己的医学LLMs的研究人员和医学从业者来说是宝贵的。

对于第二个问题,我们对现有医学LLMs在十个生物医学NLP任务中的表现进行了广泛的调查。这种分析将使我们能够理解医学LLMs在不同方面如何胜过传统的医学AI模型。通过展示它们的能力,我们旨在阐明医学LLMs在临床环境中部署时带来的优势。

第三个问题关注医学LLMs在临床环境中的实际应用。我们提供了七种临床应用场景的指南和洞见,提供了医学LLMs的具体实现,并突出了每种场景使用了哪些能力。

第四个问题强调在临床实践中部署医学LLMs时必须克服的挑战。这些挑战包括幻觉(即生成连贯且与上下文相关但事实上不正确的输出)[27, 28, 29]、可解释性[30]、伦理、法律和安全问题[31]等。我们还提倡对医学LLMs进行更广泛的评估,包括诸如可信度[32]等方面,以确保它们在临床环境中的负责任和有效使用。

对于最后一个问题,我们提供了发展医学LLMs的未来方向的洞见。这一部分作为指南,旨在帮助研究人员和从业者推进这一领域,并最大化医学LLMs在医学中的潜力。

医疗大型语言模型

作者首先总结了大型语言模型的一些技术,如Transformer,大规模预训练,Scaling Laws

Scaling Law 【1】是OpenAI 2020年提出的概念,模型的最终性能与计算量,模型参数量和数据大小有关。

之后DeepMind又提出了Chinchilla Scaling Law 【2】

随后,作者总结了通用领域LLM,分为了Encoder-Only,Decoder-only和Encoder-Decoder三种架构,具体见下表。

image-20231126183728195

现有的医疗LLMs主要是从零开始预训练、从现有的一般LLMs微调,或者直接通过提示(prompting)使一般LLMs适应医疗领域。

作者总结了采用不同方法的医疗LLM,具体见下表。

但感觉分类方式与其他不太一致,仅供参考。

image-20231126184801051

image-20231126184811185

临床应用

随后作者讨论了LLM在临床上的应用。

Medical Diagnosis 医疗诊断

医学诊断包括医生结合来自测试的客观医疗数据和自我描述的主观症状,得出最有可能发生在病人身上的健康问题的结论。

准确和及时地诊断患者总是很重要的,因为对大多数疾病的治疗效果是非常对时间敏感的。

举例:Dr.Knows一种基于图的模型,在真实的医院数据集上使用可解释路径选择顶级诊断病例。可解释的路径来自于统一的医学语言系统(UMLS)

UMLS : UMLS一体化医学语言系统,针对生物医学与健康领域的数据库系统、本体知识库。

主要包含三个工具:

  1. 一个巨大的实体数据库

2.一个元数据词典中所有概念的关系集合

3.一个为自然语言处理系统提供的通用英语词典

限制:使用llm作为医学诊断的唯一工具的一个明显限制是,它完全依赖于来自患者的主观输入,它无法结合视觉信息进行诊断。但是它可以作为一种逻辑推理工具帮助诊断,以帮助提高其他基于视觉的模型的准确性。如ChatCAD。

Formatting and ICD-Coding 格式化和ICD编码

迫切需要自动化ICD标记过程,因为它会耗费时间,而且通常是由医生自己完成的。

ICD: 国际疾病分类(International Classification of Diseases,简称ICD)

  • ICD 是由世界卫生组织(WHO)制定和发布的一套全球通用的疾病和健康相关问题的分类系统。它的主要用途是为临床诊断、流行病学研究和医疗统计提供一个标准的分类框架,以确保全球范围内对疾病和健康状况的统一记录和报告。

EHR: electronic health records 电子病历

llm可以通过从临床记录中分离医疗术语并分配相应的ICD代码来帮助自动化ICD编码。

举例: PLM-ICD

讨论:解决任何LLM中潜在的偏见和幻觉都是至关重要的。在他们进入患者的电子健康记录(ehr)之前,建立一种机制来检测和纠正这些错误同样至关重要。

Clinical Report Generation 临床报告生成

临床报告是指医疗保健工作者在每次患者就诊后必须完成的标准化文件。

可以使用LLM作为一种总结工具来帮助生成临床报告。给定一个诊断作为输入,它可以使用其文本摘要功能,以给出一个清晰和简洁的最终结论。

在这个用例中,llm并不直接帮助提高结论的准确性。相反,它们只是作为一种方便的工具,让医生们去做一些乏味的工作。

这种方式更多是一种辅助工具

llm生成临床报告的另一种流行用途通常依赖于其他类型的基于视觉的模型或医生的手动输入作为流程中的前置操作。

尽管用LLM来生成临床报告或者总结工具已经被证明有效,但是人们仍然担心幻觉,以及一种倾向于用字面意思的观点而不是人类医生通常采取的基于假设的观点来处理输入。

Medical Education 医学教育

医学教育既可以包括专业人员教育,也可以包括普通公众教育,这可以说同样重要。

llm可以通过多种方式被纳入医学教育系统,包括帮助学生准备医学考试,作为一个苏格拉底式的导师,以及回答问题。

对于普通病人来说,医疗对话往往是复杂和难以理解的。

问题:在医学教育中使用llm的一些潜在缺点是目前缺乏道德培训和可能来自训练数据集的偏见

Medical Robotics 医疗机器人

医疗机器人需要传感器获取输入数据,分析这些数据,执行路线规划,以及执行计划的路线,以执行所需的行动。

举例: Graph-based Robotic Instruction Decomposer

挑战:实施医疗机器人的一些挑战与实施协作机器人(cobot)时的挑战非常相似,因为这两种情况都涉及机器人与人类一起操作,这需要信任机器人总是做正确的事情。

Medical Language Translation 医学语言翻译

一种是将医学术语学从一种语言翻译成另一种。

另一种是将专业医学对话翻译成非专业人员容易理解的表达方式。

利用LLM进行翻译的一个道德考虑是可能会在输出中无意中插入具有歧视性措辞的潜在风险。由翻译错误引起的潜在错误信息可能导致患者混淆,甚至在最糟糕的情况下,采取错误的医疗建议并执行,对自己造成伤害。

Mental Health Support 心理健康支持

心理健康支持包括诊断和治疗。抑郁症是一种常见的心理健康问题,通过多种治疗,包括认知行为疗法、心理疗法、心理动力疗法等。这些技术主要由医患之间的对话主导。

由llm支持的聊天机器人可以大大增加对心理健康治疗资源的可及性。心理咨询及随后的治疗对许多人而言可能成本过高,而聊天机器人能够充当对话伙伴和陪伴者,将显著降低对于在财务或身体方面受限的患者的准入门槛。自我表露的程度对心理健康诊断和治疗的效果有重大影响。患者愿意分享的信息越多,诊断就越准确,因此,治疗计划也就越准确。

挑战:书面和口头交流技巧的差异。这可能是llm为了进一步模仿治疗师而必须打破的一个障碍。

挑战

幻觉,病人隐私,数据偏见,伦理,安全

幻觉

  • 内在幻觉:是指产生在逻辑上与事实信息相矛盾的输出。如数学问题的错误计算。

  • 外在幻觉:当所产生的输出无法被验证时,就会产生外部的幻觉。如LLM伪造某个引用。

解决方法:

  • 训练时校正:调整模型的权重,从而降低产生幻觉输出的概率。如factually consistent reinforcement learning和contrastive learning
  • 推理时校正:推理中加入推理过程。如生成多个样本SelfcheckGPT【3】
  • 检索增强校正:利用外挂知识库。如利用事实文档作为提示或者检索链提示技术

缺少评估Benchmarks 和 指标

目前的基准测试,如MedQA(USMLE)和MedMCQA 提供了广泛的问答任务覆盖,但未能评估llm特定的重要指标,如可信度、忠诚度、帮助性和可解释性。

HealthSearchQA提出了由普遍搜索的健康查询组成的健康搜索QA,为评估LLM在医疗领域的能力提供了一个更人性化的基准。

领域数据限制

与用于通用领域训练的数据相比,医疗领域的数据较少。医学知识的领域很广阔,而现有的数据集无法覆盖整个领域。

这导致LLM在具有广泛数据覆盖的开放基准上表现出色,但在实际任务如差异诊断和个性化治疗规划方面表现不足。

解决方法:

  • 在较小的开放域数据集上微调
  • 利用LLM生成高质量的合成数据集(但是有研究表明可能会导致模型遗忘)

新知识

两个问题:

  • 让LLM忘掉旧的过时的知识
  • 让LLM及时增加最新的知识

这些问题对在医疗领域使用llm构成了重大障碍,因为在医学领域中,准确和及时地更新最新的医学知识在实际实施中至关重要。

两个方法:

  • 模型调整:调整模型参数来修改模型的知识。这种方法不能推广,并且不同模型效果有差异
  • 检索增强生成:模型推理时提供外部知识库。如RAG方法【4】

行为对齐

虽然努力使llm与人类行为保持一致,但一般人类和医学专业人员之间的行为差异对于在医学领域采用llm仍然具有挑战性。

例如,ChatGPT对医疗咨询的回答并不像人类专家的回答那样合理和专业。

方法:指令微调,RLHF,提示微调

举例:chain of hindsight【5】

伦理、法律和安全问题

通用领域本就有这些问题,在医疗领域这个问题更加重要。

比如可能提示注入会导致个人信息的泄露。

未来方向

引入新的Benchmarks

现有的一些benchmarks针对大模型回答医学问题的准确性进行评估。

最近一些研究表达了对仅基于LLM完成为人类设计的标准考试的准确性来评估LLM的担忧。LLM能够通过医学资格考试不代表它有提供医疗建议的能力,由于该模型可能缺乏临床医生在许多其他重要临床意义方面的专业知识。

鉴于这一限制,需要研究和建立新的LLM功能,例如从可信的医学参考中获取信息、了解医学共识不断发展的格局,并清晰地向用户传达不确定性。

跨学科合作

医学专业人员最好参与到LLM的训练和应用过程中

多模态LLM

可以结合其他模态的数据构建LLM,如时间序列,视觉和听觉数据

时间序列数据如心电图和血压计

在较不成熟的医学领域的llm

可以关注于其他不那么传统但同样重要的医学方向如康复疗法和运动医学。

参考文章

[1] [2001.08361] Scaling Laws for Neural Language Models (arxiv.org)

[2] [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org)

[3] [2303.08896] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (arxiv.org)

[4] [2005.11401] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (arxiv.org)

[5] [2302.02676] Chain of Hindsight Aligns Language Models with Feedback (arxiv.org)

<think>好的,用户问的是如何区分PC和H5获取录音权限。首先,我需要明确用户的需求。他们可能是在开发一个需要录音功能的Web应用,想要了解在桌面浏览器(PC)和移动浏览器(H5)上获取麦克风权限的不同方法。需要从技术实现、API使用、用户交互、兼容性等方面进行分析。 首先,回忆一下Web Audio API的相关知识。在Web开发中,获取用户麦克风权限通常使用navigator.mediaDevices.getUserMedia方法。这个方法在PC和移动端的基本调用方式是一样的,但实际应用中可能会有差异。需要分步骤说明两者的不同点。 接下来,权限请求的触发方式。在PC端,大多数浏览器要求用户必须在用户交互(比如点击事件)中触发权限请求,否则会被阻止。而在移动端,尤其是H5页面,可能同样需要用户交互,但不同移动浏览器的行为可能不同。需要确认这一点,是否有例外情况。 然后,用户提示的差异。PC端浏览器通常会在地址栏显示权限请求的图标,而移动端可能会以弹窗或底部提示的方式出现。这里可能需要具体举例,比如Chrome在PC和手机上的不同表现。 安全上下文的要求。无论是PC还是移动端,使用getUserMedia都需要在HTTPS环境下,本地开发环境(localhost)除外。这一点是否一致?需要确认。 设备检测方面,移动端可能需要处理更多设备适配问题,比如前后麦克风的选择,而PC端可能通常只有一个麦克风。但这里可能需要更准确的描述,比如移动设备可能有多个麦克风,但通常由系统管理,而开发者可能不需要特别处理。 兼容性问题。需要列举不同浏览器在PC和移动端对录音权限的支持情况。比如Safari在iOS上的限制,或者某些安卓浏览器的不同行为。 接下来,代码示例部分。需要提供一个基本的请求麦克风权限的代码示例,并指出在PC和H5中的注意事项。比如在移动端可能需要处理自动播放策略,或者用户拒绝后的不同处理方式。 另外,权限持久化方面,PC端浏览器可能会记住用户的选择,而移动端可能每次都需要重新请求,或者有不同的会话管理方式。需要确认不同浏览器的具体行为。 最后,总结关键点,帮助用户区分两者的主要差异,比如触发方式、用户提示、兼容性处理等。确保回答结构清晰,步骤明确,用户能够逐步理解和应用。 需要验证一些不确定的点,比如移动端是否真的每次都需要用户交互触发,或者不同浏览器是否有不同的策略。例如,iOS上的Safari对getUserMedia的调用是否有严格的用户手势要求,而Chrome on Android是否允许在某些情况下自动触发。此外,权限请求的UI展示在不同平台上的具体表现,可能需要进一步查证。 另外,设备检测方面,是否需要使用mediaDevices.enumerateDevices来列出麦克风设备,这在移动端是否有必要,或者是否通常只有一个可用麦克风。这部分可能需要简化,避免复杂化问题。 最后,确保回答符合用户可见层的要求,结构清晰,逐步解决问题,并且内容真实可靠。避免技术错误,比如错误的API名称或不兼容的浏览器示例。</think>区分PC端和移动端H5获取录音权限的实现差异,主要涉及浏览器API调用方式、用户交互流程及兼容性处理。以下是关键点分析: --- ### **一、核心API调用** 无论PC或H5均使用Web API `navigator.mediaDevices.getUserMedia()`,但实现细节不同: ```javascript // 通用代码框架 async function requestMicrophone() { try { const stream = await navigator.mediaDevices.getUserMedia({ audio: true }); // 成功获取音频流 } catch (error) { // 处理权限拒绝或错误 } } ``` --- ### **二、用户交互差异** | **场景** | **PC端** | **H5(移动端)** | |----------------|----------------------------------------|---------------------------------------| | **触发条件** | 需用户主动交互(如点击按钮) | 同样需用户手势触发,部分浏览器更严格 | | **权限弹窗** | 浏览器顶部地址栏提示 | 系统级弹窗或底部提示栏 | | **持久化策略** | 浏览器可记住用户选择 | 部分移动浏览器每次刷新需重新授权 | --- ### **三、兼容性注意事项** 1. **PC端重点问题** - 旧版Edge/Firefox 需处理 `getUserMedia` 前缀 - Safari 要求 HTTPS 环境 2. **H5移动端特殊处理** - **iOS Safari**:首次拒绝后需手动开启(设置 > Safari > 麦克风) - **微信浏览器**:需配置JS接口安全域名 - **安卓WebView**:需应用层声明录音权限 --- ### **四、关键代码适配技巧** 1. **检测设备类型** ```javascript const isMobile = /Android|webOS|iPhone|iPad|iPod|BlackBerry|IEMobile|Opera Mini/i.test(navigator.userAgent); ``` 2. **错误处理优化** ```javascript catch (error) { if (error.name === 'NotAllowedError') { // 提示用户手动开启权限 if (isMobile) alert('请前往系统设置启用麦克风权限'); } } ``` 3. **自动播放策略(H5重点)** ```javascript // 移动端需在用户交互后立即播放音频,避免静音阻塞 audioElement.play().catch(() => { /* 处理自动播放失败 */ }); ``` --- ### **五、调试建议** 1. **PC端**:使用Chrome `chrome://settings/content/microphone` 管理权限 2. **H5移动端**: - Android Chrome:长按页面 > 站点设置 - iOS Safari:需完全关闭页面后重新进入 --- ### **总结** - **本质相同**:均依赖 `getUserMedia` API,但交互流程和系统限制不同 - **核心差异**:移动端涉及更多系统级权限管控和浏览器兼容问题 - **适配关键**:结合设备检测优化提示逻辑,优先在HTTPS环境部署
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jinniulema

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值