文献阅读丨大语言模型如何帮助医患高效沟通？来自七大情景测试分析

本文链接：https://blog.csdn.net/m0_59164304/article/details/142745270

导言

高质量的以患者为中心的医疗保健在很大程度上依赖于患者与医疗服务提供者之间的有效沟通。近年来，使用患者门户网站与医生沟通的患者数量显著增加。然而，医疗服务提供者通常需要花费大量时间来回应患者的消息，有可能导致医务工作者的职业倦怠。这种沟通方式的效率迫切需要改进。

研究要点

1.“来回消息”不仅给医疗服务提供者增加了额外的工作量，而且阻碍了患者及时采取下一步治疗。电子通信的异步性质可能会导致延迟，这些延迟可能持续数周，直到问题完全解决。

2.一项比较ChatGPT生成的回复与医生对195个患者问题的回复的研究发现，ChatGPT的回复在质量和同理心方面得到了更高的评价。

3.在七个情景中，GPT4-complex生成了两组最高评分的后续问题，而其余五组最高评分的后续问题来自团队的CLAIR模型。

本期DH智库将解读《使用大型语言模型指导患者创建高效全面的临床护理信息》一文，本研究旨在探讨在患者向医疗服务提供者发问时，如何使用大型语言模型（LLMs）自动生成能够促使患者提供更多信息的相关后续问题，以方便医疗服务提供者能在尽量短的时间里收到所有必要的信息、以安全准确地回答患者的问题，消除来回通信以及等待的时间延迟和挫折感。

研究背景

1.患者与医疗服务提供者现状

在患者门户网站中，患者与医疗服务提供者之间频繁的消息往来是一个常见问题。对500万患者消息的回顾性审查显示，超过30%的消息线程包含三条或更多消息，这一比例每年都在增加。

1）“来回消息”不仅给医疗服务提供者增加了额外的工作量，而且阻碍了患者及时采取下一步治疗。

2）电子通信的异步性质可能会导致延迟，这些延迟可能持续数周，直到问题完全解决。

3）患者有时根本不回复医疗服务提供者的后续问题，这可能导致疾病未得到治疗和患者护理的障碍。

2.大语言模型的潜力

大型语言模型（LLMs）在提高患者-医疗服务提供者消息往来效率方面的潜力已经得到了初步研究，特别是在起草临床医生对患者的回复方面。

1）一项比较ChatGPT生成的回复与医生对195个患者问题的回复的研究发现，ChatGPT的回复在质量和同理心方面得到了更高的评价。

2）在之前的研究中，使用范德堡大学医学中心（VUMC）的患者-医疗服务提供者消息数据对LLM进行了微调，并生成了在同理心和准确性方面都得到积极评价的回复。

研究方法

该团队收集了2022年1月1日至2023年3月7日期间通过我们的患者门户网站“My Health at Vanderbilt”发送的患者与他们的**初级保健提供者（PCP）**之间的消息数据以及对这些消息的回复。

1.识别常见的患者消息情景

为了识别常见的患者消息情景，团队选择与内科医生进行访谈，以更好地了解基于他们通过“My Health at Vanderbilt”与患者沟通的经验的常见患者消息情景。

根据他们的输入，选择了7个代表性的患者消息线程，涉及患者和提供者之间的来回沟通。

在这些消息线程中，对患者消息的回复由PCP或护理团队的另一名成员撰写（一些PCP有像护士这样的提供者帮助回复患者消息）。我们从消息中移除了受保护的健康信息，除此之外未做其他更改。

2.用于生成后续问题的模型选择

1）全面LLM人工智能响应器（CLAIR）:

CLAIR模型是使用先前报告的过程开发的。团队应用低秩适配在Llama2（70B）上进行监督微调，使用VUMC的患者消息和医生回复的本地数据集。

2）GPT-simple:使用简单提示的GPT4。

3）GPT4-comp:使用复杂提示的GPT4，专注于澄清患者症状和检查患者状况的最近变化。

3.医生评估模型质量

团队邀请了五位医生评估生成的后续问题和实际医疗服务提供者的后续问题。参与者不知道给定的回复是来自人类医疗服务团队还是由模型生成的。参与者审查了患者消息，并使用5点李克特量表（1-强烈反对，5-强烈同意）对以下指标对回复进行评分：

（1）实用性：后续问题对医疗服务提供者回应患者消息有用。

（2）简洁性：所有后续问题都是医疗服务提供者解决患者问题所必需的。

（3）完整性：后续问题没有遗漏医疗服务提供者解决患者问题所必需的重要信息[请注意，后续问题故意设计为不询问在电子健康记录（EHR）中更容易找到的信息，如当前用药、过敏史]。

（4）清晰度：后续问题易于患者理解和回答。

在这里插入图片描述

研究结果

对于每个指标，报告了平均值和标准差。总体得分是通过平均所有四个指标的得分来确定的。对于每个患者消息，我们使用总体得分来比较生成的后续问题的性能。如果总体得分相同，则将使用“实用性”指标的得分来确定最终排名。

1.最高评分的后续问题

在七个情景中，GPT4-complex生成了两组最高评分的后续问题，而其余五组最高评分的后续问题来自团队的CLAIR模型。

在这里插入图片描述

2.专家对后续问题的评审结果

1）由医疗服务提供者生成的问题在清晰度、简洁性和实用性方面得分较高，但在完整性方面得分较低。

2）CLAIR生成的问题在清晰度和简洁性方面的评分与医疗服务提供者生成的问题相当，实用性更高，但完整性较低。

3）GPT4-simple和GPT4-complex生成的问题在清晰度和实用性方面得分较高。然而，GPT4-simple生成的问题在完整性方面得分较高，但在简洁性方面得分较低。相反，GPT4-complex生成的问题在完整性和简洁性方面都得分较高。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述