链接:https://pubmed.ncbi.nlm.nih.gov/38968598/
原标题:Electronic Health Record-Oriented Knowledge Graph System for Collaborative Clinical Decision Support Using Multicenter Fragmented Medical Data: Design and Application Study
研究背景
-
研究问题:这篇文章要解决的问题是如何在多中心、信息敏感的医疗环境中,利用分散的患者医疗数据进行协同临床决策支持(CDS),同时保持数据隐私和安全。
-
研究难点:该问题的研究难点包括:患者在不同医院就诊导致的数据碎片化、数据安全问题和单家医院数据无法提供完整的决策支持证据。
-
相关工作:相关工作包括从电子健康记录(EHR)数据构建医学知识图谱、基于知识图谱的EHR查询和基于知识图谱的临床决策支持。然而,这些研究大多没有结合决策支持功能。
研究方法
这篇论文提出了一个以EHR为导向的知识图谱系统,用于在多中心环境中进行协同推理。具体来说,
1.系统架构:系统由三个主要组件组成:(1) 本地EHR知识图谱组件,负责对本地EHR数据进行语义推理和生成独立的临床发现;(2) 分发组件,负责管理中间推理结果的分布和患者对齐,以便多中心协同;(3) 区块链网络组件,建立安全的网络进行多中心同步。
2.本地EHR知识图谱组件:该组件负责将EHR数据转换为资源描述框架(RDF)类型的三元组,以便进行语义查询和推理。它还包括一个语义推理模块,提供基于规则的推理能力,生成与CDS相关的发现。
3.分发组件:该组件提取中间推理结果和就诊路径信息,对患者身份进行哈希加密,并构建在线子图以同步本地患者的发现。
4.区块链网络组件:该组件建立区块链节点并管理区块链网络,安全地同步本地生成的在线子图,并将其他医院获取的三元组传递给本地系统,支持协同推理过程。
实验设计
-
数据收集:实验使用了来自杭州三家三级甲等医院的EHR数据,包括浙江大学医学院附属第一医院(FAHZU)、浙江医院和杭州师范大学附属医院(AHHNU)。数据范围从2008年3月到2020年11月。
-
样本选择:研究队列包括在这三家医院至少访问过两次的1185名患者。排除标准包括有任何肾脏疾病诊断记录或在观察期内有肾脏科就诊记录的患者。
-
参数配置:系统使用OMOP公共数据模型(CDM)进行语义组织,并使用哈希加密和区块链网络进行数据同步和隐私保护。
结果与分析
-
多中心推理结果:系统在三家医院中识别出124名符合CKD诊断标准的患者。其中,69名患者通过多中心医疗信息的协同推理符合CKD诊断标准,而单家医院的数据无法支持这一诊断。
-
临床评估:91名患者由肾科医生进行评估,结果显示86%(32/40)的患者表现出阳性的CKD症状和测试结果。
-
协同推理的优势:与单家医院数据分析相比,协同推理在发现提前期、风险覆盖和潜在检查减少方面具有显著优势。多中心数据组的发现提前期为434天(中位数为364天),潜在检查减少平均为3.34次。
总体结论
这篇论文提出了一个以EHR为导向的知识图谱系统,用于在多中心环境中进行协同临床决策支持。研究表明,该系统能够有效利用多中心分散的EHR数据进行临床应用,提供了全面的决策支持。应用研究展示了系统在检测被忽视的CKD方面的临床价值,特别是在非肾科医生中,有助于早期发现和治疗慢性疾病。
论文评价
优点与创新
-
多中心协作推理框架:提出了一种新的框架,用于在不需要共享原始数据的情况下进行多中心协作推理,从而实现全面的临床决策支持(CDS)。
-
去中心化设计:该系统采用去中心化设计,消除了对协调中心的依赖,并在各医院之间提供了灵活性。
-
本地推理和语义推理能力:每个医院的本地知识图系统具备数据处理和语义推理的能力,能够生成独立的临床发现。
-
分布式组件和区块链网络:通过分布式组件和区块链网络,系统促进了本地系统的参与和多中心推理过程的协作。
-
数据安全措施:实施了三大数据安全措施,包括隔离推理结果和原始数据、使用领域专家选择的高层概念进行跨医院协作、以及在线子图的加密同步。
-
实际应用场景验证:在检测未考虑的慢性肾病(CKD)患者的应用研究中验证了系统的临床价值,展示了其在跨部门临床决策支持中的潜力。
不足与反思
-
通信效率瓶颈:在广泛的医院和诊所网络中部署系统时,可能会遇到通信效率的瓶颈。
-
网络和计算资源成本:由于患者对齐和多个子图的语义推理,网络和计算资源的成本可能会上升。
-
Hyperledger方法的应用:为了应对这些挑战,可能需要进一步系统地设计和应用Hyperledger方法,以促进系统的广泛部署。
-
唯一标识符的挑战:患者对齐过程依赖于唯一标识符,当记录中缺少唯一公民ID时,可能会带来挑战。
-
系统适应性:尽管该系统在检测未考虑的CKD方面表现出色,但它仍然可以适应其他应用领域,如2型糖尿病的敏感和精确识别、全科医生的风险警告等。
-
改进系统采用:为了提高系统的采用率,需要探索使用非唯一标识符进行类似患者对齐的替代方法。
关键问题及回答
问题1:系统的本地EHR知识图谱组件是如何处理EHR数据并进行语义推理的?
本地EHR知识图谱组件首先将EHR数据转换为资源描述框架(RDF)类型的三元组,以便进行语义查询和推理。具体步骤如下:
-
数据转换:EHR数据通过EHR数据转换模块被转换为RDF类型的三元组。这个模块分析EHR数据库,并将表概念与知识图谱本体中的实体进行对齐。
-
语义推理:转换后的EHR数据和临床知识实体在EHR知识图谱中进行语义变换,组织在一个统一的顶层本体结构下。语义三元组用于表示与每个患者相关的临床信息。
-
规则推理:语义推理模块提供基于规则的推理能力,生成与临床决策支持(CDS)相关的发现。此外,该模块还为每个患者建立一个EHR路径,以促进多中心信息的协同。
问题2:分发组件在多中心协同推理过程中起到了什么作用?它是如何确保患者隐私的?
分发组件在多中心协同推理过程中起到了关键作用,具体包括以下步骤:
-
中间推理结果提取:分发组件提取本地推理生成的中间推理结果和就诊路径信息。
-
患者身份加密:患者身份进行哈希加密,以确保在数据传输和对齐过程中不泄露隐私信息。
-
在线子图构建:加密后的患者身份和其他中间推理结果被用来构建在线子图,以便在不同医院之间进行同步。
-
数据同步:通过区块链网络,各医院可以安全地同步在线子图,进行协同推理。
通过这些步骤,分发组件不仅实现了多中心数据的协同推理,还确保了患者隐私和数据安全。
问题3:系统在检测被忽视的慢性肾病(CKD)方面有哪些具体的临床评估结果?
系统在检测被忽视的慢性肾病(CKD)方面进行了以下具体的临床评估:
-
识别患者数量:系统在三家医院中识别出124名符合CKD诊断标准的患者。其中,69名患者通过多中心医疗信息的协同推理符合CKD诊断标准,而单家医院的数据无法支持这一诊断。
-
临床评估准确性:91名患者由肾科医生进行评估,结果显示86%(32/40)的患者表现出阳性的CKD症状和测试结果。这表明系统能够有效识别出被忽视的CKD患者。
-
协同推理的优势:与单家医院数据分析相比,协同推理在发现提前期、风险覆盖和潜在检查减少方面具有显著优势。多中心数据组的发现提前期为434天(中位数为364天),潜在检查减少平均为3.34次。
这些评估结果表明,系统在多中心环境中利用分散的EHR数据进行协同临床决策支持具有显著的临床价值。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。