摘要
How RAG Models Transform Healthcare: The Key Life Sciences GenAI Use Cases - SPsoft
检索增强生成 (RAG) 架构通过整合实时数据,显著提升了大型语言模型 (LLM) 在医疗保健领域的准确性和实用性,为临床决策支持、虚拟医疗和医学研究等应用带来了变革。
Key Takeaways:
* RAG 架构通过检索、阅读和生成三个组件,结合外部知识库提高 LLM 的输出精度。
* RAG 在医疗保健中的应用包括:改进临床决策支持、提升虚拟医疗体验、推动医学研究和临床试验。
* RAG 的主要优势在于:改进沟通、促进创新决策、提供个性化体验、保持上下文相关性、高效内容生成和优化服务器端 LLM 平台操作。
* RAG 应用的挑战包括:维护第三方数据源集成、检索速度、来源标注和敏感信息处理。
* 提高 RAG 性能的方法包括:数据清洗、索引类型选择、数据块实验、提示词优化、元数据过滤、查询路由、结果重新排序、查询转换、嵌入模型定制和 LLM 开发工具使用。
* RAG 有助于医疗专业人员访问电子健康记录 (EHR) 中的重要信息,并总结医学文献。
Source:
https://spsoft.com/tech-insights/key-life-sciences-gen-ai-use-cases/
正文
美国的联邦医疗保健系统必须不断适应以满足不断变化的健康需求。数字化转型对于实现行业现代化、升级 IT 基础设施、改善患者体验和提供全面的公共卫生策略至关重要。因此,政府已经认识到利用数据和先进技术来提高医疗保健服务质量的重要性。
AI 已成为这一转型的关键工具。然而,尽管传统语言模型能够生成类似人类的文本,但它们面临着限制。这些模型在大型数据集上进行训练,通常需要更实时的上下文,从而导致响应不准确和需要内容感知的查询困难。为了应对这些挑战,检索增强生成 (RAG) 提供了一种实用的解决方案。RAG 通过整合实时的上下文相关数据、减少错误和提高响应的准确性来提高 LLM 的准确性。
下面,我们将详细分析 RAG 架构最关键的用例和优势。
AI RAG 架构的基础知识
GenAI 涵盖一系列高级技术,包括深度学习 (DL) 和 transformer 模型,它们可以分析大量数据集并生成文本、视觉对象或代码等新内容。它开辟了许多潜在的用途,并激发了新的思维和解决问题的方式。
检索增强生成通过在生成响应之前动态查阅外部权威知识库来增强 LLM 的输出。RAG 架构无缝集成了检索和生成阶段。它利用预先训练的语言模型,并通过收集、理解和集成信息的机制进行增强。这使模型能够分析查询、访问必要的数据,并生成连贯且上下文适当的响应。
图 1.RAG 如何在医疗领域发挥作用
AI RAG 架构通常涉及三个关键组件:
-
1.搜索。这部分系统根据初始查询从广泛的数据库或知识图谱中识别并提取相关数据。它使用高级搜索技术来有效地定位和检索必要的信息。
-
2.增强器。检索后,此组件在系统中起着至关重要的作用。它分析信息、提取基本元素并将数据置于上下文中。此步骤可确保生成的响应具有相关性,并受到检索到的内容的深度影响。这有助于提供高水平的准确性。
-
3.生成器。最后一个组件综合了来自查询和检索到的数据的见解,以创建格式正确且适合上下文的输出。它采用自然语言生成 (NLG) 技术,例如语言建模和文本规划,来制作易于理解且相关的响应。生成器的功能是将解释的数据转换为连贯且上下文适当的响应。
将这三个组件集成到 RAG 架构中,可实现复杂的检索、理解和生成功能。这使得这些系统在医疗保健和生命科学 GenAI 用例中具有不可估量的价值,并为您的未来开辟了令人兴奋的可能性。
RAG AI 在生命科学和医疗保健领域的用例
RAG 模型是医疗保健领域的多功能工具。以下是 RAG 架构在不同医疗领域的一些实际应用:
美国联邦医疗保健计划
医疗保险和医疗补助服务中心(CMS)正在积极寻求通过增强健康信息技术(HIT)实现医疗保健的现代化。Medicare 为 65 岁以上的人提供服务。与此同时,Medicaid 是一项为符合条件的个人提供医疗费用支持的联邦-州联合计划,是这些举措的核心。
医疗保险和医疗补助服务中心(CMS)正在积极寻求通过增强健康信息技术(HIT)实现医疗保健的现代化。Medicare 为 65 岁以上的人提供服务。与此同时,Medicaid 是一项为符合条件的个人提供医疗费用支持的联邦-州联合计划,是这些举措的核心。
联邦政府的目标包括:
-
1.提高患者安全
-
2.加强医疗保健服务
-
3.增加服务不足人群获得优质护理的机会
-
4.监管医疗保健市场
-
5.促进医学研究和知识
这些现代化活动涉及与联邦机构和政策制定者(如美国国会)的合作。RAG 技术越来越被认为是 CMS 的宝贵工具,为改善医疗保健结果提供了好处和机会。毕竟,GenAi 在医疗保健领域的用例,如 OpenAI 的 ChatGPT,可以极大地影响该行业,表明医疗实践和患者护理管理具有变革性潜力。
临床决策支持 (CDS) 和管理
用临床见解丰富 LLM 以支持医疗决策是 AI 在医疗保健领域的一项关键功能。因此,利用 RAG 可以改进临床管理和决策过程。现在,配备一般认知能力的 AI 聊天机器人被用于与患者和医务人员就健康状况进行互动。但是,这些聊天机器人通常会产生标准响应,不适合需要定制临床建议或个性化指导的场景。
RAG 通过改进 AI 聊天机器人中使用的提示的准确性并改进其响应,引入了一种实用的解决方案。它整合了来自指南和可靠来源的最新临床信息,从而加速了更好的诊断和治疗技巧。例如,您可以采用 GPT4-Turbo 来帮助临床决策治疗双相抑郁症。
这种方法将传统的 LLM 框架与 RAG 技术相结合,将循证指导直接嵌入到临床工作流程中。Microsoft Co-pilot 和 Azure AI Studio 处于推进健康技术的最前沿。第一个项目尤其旨在促进临床管理和提高医疗专业人员的工作效率。
图 2.集成 Microsoft Co-Pilot 和 RAG 以向响应添加上下文
虽然 GenAI 模型或 LLM 通常使用通用信息响应用户提示,但 RAG 增强功能可帮助您克服这些限制。这使它们能够适应各种医疗环境并扩大其用途。其中一项开发是 Azure AI Studio,它为开发人员提供了定制 OpenAI 模型和应用 RAG 配置的工具。此外,Microsoft Co-pilot 允许制作包含这些高级功能的 Copilot,以增强它们在医疗保健应用程序中的功能。
虚拟护理
通过集成移动医疗 (mHealth) 和云计算,虚拟医疗保健正日益成为现代医疗系统不可或缺的一部分。同时,RAG 与 LLM 在增强特定领域相互作用(主要是在医学诊断中)的作用是一个非常有趣的话题。例如,使用与 RAG 集成的 LLM 可以通过电子健康记录 (EHR) 促进有效的疾病诊断,从而引发健康技术的新一轮参与。
图 3.基于 LLM 的 RAG 架构
传统上,将医生知识编码到计算规则中容易出错且需要大量人力。虽然 LLM 可以自动化此过程,但他们对复杂临床文档的处理通常仍然不足。然而,结合 LLM 和 RAG 来有效解析疾病相关文本的潜力是有希望的。这种集成减少了模型需要处理的文本量,从而确保专注于最准确的信息。
患者参与和个性化指导
检索增强生成技术可以帮助您改善远程医疗计划中的虚拟护理服务和患者体验。在最近的一项研究中,研究人员评估了使用 ChatGPT 为患者询问提供高质量和善解人意的回复的有效性。他们假设增加患者消息可能会导致医疗专业人员的工作量增加和潜在的倦怠。
值得庆幸的是,AI 助手可以在在线论坛中对患者的查询生成高质量、富有同理心的回复,反映人类专家的回答。评估显示,聊天机器人的响应优于医生提供的响应。引入 AI 助手可以帮助解决患者问题并消除问题。更重要的是,政府可以通过将人员配备整合到诊所(主要是虚拟护理环境)来缓解人员配备挑战。
医学研究
联邦政府在改善医学研究和临床试验方面发挥着至关重要的作用。它确保参与者的安全,管理行政流程并制定道德行为准则。RAG 通过将 LLM 与最新、准确的信息相结合,为生物医学研究提供了新的可能性。
一个例子是 PaperQA,这是一个基于 RAG 的模块化系统,专为科学探究而设计。该工具包括三个主要功能:查找相关的科学论文、从这些文档中提取数据以及生成引用良好的答案。PaperQA 的主要优势在于它能够使用 RAG 工具检索相关的全文论文,从而加快研究过程,同时降低成本。该系统在生物医学研究领域也很有益。
图 4.PaperQA 的工作流程
例如,类似的基于 RAG 的临床医学模型 Almanac
-
1.用于存储内容的数据库引擎
-
2.用于获取在线信息的浏览器
-
3.用于对查询和引用进行编码的检索器
-
4.用于提取相关上下文信息的语言模型
临床试验
在美国联邦政府实施的关键生命科学 GenAI 用例中,正在提高临床试验的透明度。他们利用 RAG 技术来扩展试验注册并鼓励开放数据共享。美国卫生与公众服务部 (HHS) 和美国国立卫生研究院 (NIH) 正在努力提高临床研究的完整性,同时确保参与者的安全。由于临床试验注册处是基于 Web 的平台,因此它们必须向研究人员和公众提供准确的数据。
与 GenAI 相结合,RAG 为您提供了优化这些流程的独特机会。它还擅长简化临床试验的受试者筛选。筛查参与者通常是一项耗时且容易出错的任务,几乎每项临床试验都熟悉这项任务。然而,LLM 和自然语言处理 (NLP) 的引入为提高临床研究的效率带来了先进的解决方案。
例如,ChatGPT-4 可以通过使用语言功能访问外部数据(例如临床记录)来增强临床试验筛选。通过整合 RAG 架构,您可以将临床记录作为外部数据源来捕获最相关的上下文。该工作流程包括四个主要步骤:数据加载、数据拆分、向量嵌入创建和问答。因此,GPT 与 RAG 相结合减少了临床试验招募的时间和成本。
然而,存在一些挑战,尤其是在确保 GPT 处理临床数据以产生准确结果的能力方面。一个很好的解决方案是采用元数据过滤等经济高效的策略来专注于特定的临床记录并提高搜索精度。LangChain 和 LlamIndex 等工具通过提供结构化的方式来存储和检索数据,从而降低计算成本和时间,从而增强卫生系统的有效性。
访问电子健康记录
RAG 模型对于帮助医疗保健从业者从 EHR、临床指南和医学文献中获取重要信息至关重要。通过简化关键数据的检索,相关模型促进了明智的决策、医学教育和循证治疗。
这些工具是从大量非结构化 EHR 数据(如临床笔记或诊断报告)中提取见解的必备工具。这有助于医疗保健提供商加强患者护理和质量控制,解决处理大量无组织信息的挑战。
医学文献总结
对于医疗专业人员来说,跟上快速增长的医疗保健知识体系往往是压倒性的。RAG 架构通过将大量医学文献、研究和临床指南浓缩为简短、有洞察力的摘要来简化这一过程。这使组织和研究人员能够有效地了解最新的医学发现,而无需手动对大量信息进行分类。
RAG 在医疗保健领域的主要优势
通过整合外部知识的能力来增强传统 LLM 有望在交互和处理信息的方式方面取得巨大进步。以下是 RAG 在医疗保健中可能的好处的详细信息:
图 5.RAG 在医疗领域的主要优势
更好的沟通和理解
RAG 模型可以通过翻译语言、整合文化细微差别和实时更新数据的能力来改变沟通。他们还可以定制教育材料以适应个人学习风格,并简化复杂科学概念的交流。
创新决策
这些模型是克服创意挑战的有效合作伙伴。他们将通过访问广泛的知识库来提出新颖的解决方案,并将用户与相关专家联系起来,从而加强决策。此功能使个人和组织能够更有效地解决复杂问题,从而促进解决问题的新方法。
量身定制的个人体验
RAG 技术可以根据个人偏好和病史调整信息和建议。例如,他们可能会根据一个人独特的医疗状况推荐合适的治疗方法,或者创建定制的教育计划来促进学习。
扩展话语中的上下文相关性
RAG 架构允许在长时间对话或详细文档中维护上下文。它们确保响应始终与与交互相关的特定数据保持一致,从而提高所提供信息的准确性。
高效的内容生成
RAG 模型以其快速响应能力而闻名,有助于快速生成与上下文相关的内容。它们提供了一种经济高效的方法,无需进行大量自定义即可使用特定于领域的数据更新 LLM,从而提高了工作效率和适应性。
在LLM 平台上优化操作
利用 LLM 平台,RAG tech 可以优化客户和员工支持等内部功能。它以最少的编码方式顺利集成到现有工作流程中,选择最佳响应策略,从而提高所提供信息的质量和准确性。此类系统支持运营团队有效管理更多的查询。
因此,RAG 模型为数字化交互更加动态和个性化的未来铺平了道路,改变了广泛数字化沟通的管理。
采用 RAG 模型的 4 个主要挑战
构建和维护用于访问第三方数据源的集成是一项需要适当技术资源的关键任务。因此,潜在供应商团队在成功实施和支持这些连接方面的作用是无价的。
-
1.有关 Quick Retrieval Operations 性能的故障。
-
一些因素会阻碍检索操作的速度,例如数据源的大小、网络延迟和要执行的查询数量。延迟响应生成不仅会影响用户体验和满意度,还可能导致客户和收入的潜在损失。
-
2.包含源的输出配置。
-
添加用于生成输出的特定数据源可增强用户的信任和理解。以不中断输出流程的方式正确识别和呈现源可能很困难。
-
3.访问敏感信息。
-
在没有必要预防措施的情况下访问个人身份信息 (PII) 是一件严重的事情。这可能会导致违反隐私法并导致罚款和失去客户信任等后果。因此,在尊重隐私法的情况下处理敏感数据至关重要。
-
4.利用不可靠的信息来源。
-
使用不可靠的数据源(例如未经验证的用户生成内容或过时的数据库)训练 LLM 可能会导致输出不准确和产生幻觉。因此,您必须确保用于训练的源的数据质量和可靠性。
提高 RAG 性能的有效步骤
以下是您可以采取的十个有效步骤来提高公司内部的 RAG 绩效:
图 6.提高 RAG 性能的 10 个步骤
数据清洗
数据质量是医疗保健领域生命科学世代 AI 用例的关键,尤其是 RAG 系统有效运行的关键。干净且结构合理的数据可以提高检索性能和系统的输出质量。
检查各种索引类型
尝试不同类型的数据索引,例如嵌入与基于关键字的搜索,可以根据用例优化 RAG 性能。混合方法可以在多种类型的查询之间提供平衡。
使用数据块进行实验
优化检索过程中使用的数据块的大小和结构也会影响系统操作。测试各种分块策略以找到最适合您的应用程序的方法至关重要。
使用你的基础提示
为 LLM 自定义基本提示是一个令人兴奋的机会,可以指导系统的响应及其对上下文信息的依赖。尝试不同的提示和说明可以极大地提高 LLM 的性能,促进创新和发现。
采用元数据过滤器
将元数据添加到数据块以及筛选和优先排序结果也可以使检索结果更好。元数据 (如日期) 增强了系统输出的相关性。
路由查询
为不同的查询类型设置多个索引并将查询路由到适当的索引可以根据查询的性质优化性能。此方法可防止影响不同查询行为的检索有效性。
考虑再排序
根据相关性对检索到的结果进行重新排序有助于解决相似性和相关性之间的差异。例如,像 Cohere Reranker 这样的策略可以提高系统性能和用户满意度。
转换查询
通过改写来更改用户查询或子查询可以增强系统操作并增强 LLM 对复杂查询的理解。使用查询转换进行实验可以优化检索和生成过程。
自定义嵌入模型
针对特定域或数据集微调嵌入模型可以提高检索指标和整体系统工作。根据特定于域的术语对其进行自定义可以提高系统查找相关上下文的能力。
利用 LLM 开发工具
利用 LLM 开发工具进行调试、定义回调和监控上下文使用情况可以简化系统优化。这些工具可帮助开发人员有效地识别和解决性能问题,从而打造更健壮、更可靠的系统。
最后的思考
医疗保健和生命科学 GenAI 用例,尤其是采用 RAG 架构,将整个行业从政策制定转变为临床支持和决策。虽然生成式 AI 和大型 LLM 在内容生成方面显示出前景,但它们通常会产生在现实世界的医疗环境中达不到要求的通用响应。
幸运的是,集成检索增强生成有助于克服这些挑战。它支持更多动态的应用程序,如决策支持系统、虚拟医疗保健、医学研究和个性化患者转诊,从而改善护理服务。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。