Nature 正刊丨用于分散和保密的临床机器学习的群学习

a、实验设置概述。由生物重复组成的数据被分成不重叠的训练集和测试集。训练数据被隔离在Swarm边缘节点1-3,测试节点T作为独立的测试集。SL是通过按照补充信息中描述的步骤将1-3个节点进行集成以进行训练来实现的。红色和蓝色条形图表示节点间病例和控制的特定场景分布;百分比描述了来自完整数据集的样本的百分比。b,使用数据集A2的场景,其中病例和对照以及节点之间的样本大小分布不均匀。c、不同训练节点上的病例和对照数量不均匀,但每个节点上的样本数量相似的场景。d,情景,来自A2的独立研究的样本被采样到不同的节点,导致每个节点的病例和对照数量不同。e,每个节点从不同转录组学技术获取样本的场景(节点1-3:数据集A1-A3)。测试节点从每个数据集A1-A3中获取样本。b-e,箱形图显示了分别对3个训练节点和SL进行100次排列的准确性。所有样本都是生物重复。中心圆点,表示;盒限,第一和第三四分位数;最小值和最大值。精确度定义为仅用于测试的独立的第四个节点。采用连续性校正的单侧Wilcoxon符号秩检验计算SL与所有单个节点(包括所有排列)结果的统计差异;*P < 0.05,确切P值见补充表5

作者:

01 摘要

快速、可靠地检测重症和异质性疾病患者是精准医疗的主要目标1,2。白血病患者可以根据他们的血液转录组使用机器学习进行识别。然而,由于隐私立法的原因,技术上可行和允许之间的差距越来越大。在这里,为了在不违反隐私法的情况下促进来自全球任何数据所有者的任何医疗数据的集成,我们引入了Swarm learning——一种分散的机器学习方法,它将边缘计算、基于区块链的点对点网络和协调结合在一起,同时保持机密性,而无需中央协调器,从而超越了联邦学习。为了说明使用群学习开发使用分布式数据的疾病分类器的可行性,我们选择了四个异构疾病(COVID-19,结核病,白血病和肺部病变)的用例。我们从127项临床研究中获得了超过16400个血液转录组,这些研究的病例和对照分布不均匀,存在大量的研究偏差,以及超过95000张胸部x射线图像,我们表明Swarm Learning分类器优于在单个站点开发的分类器。此外,Swarm Learning在设计上完全符合当地的保密规定。我们相信,这种方法将显著加速精准医疗的引入。

02 图表简介 

 

a,在不同的、不相连的位置用数据和计算说明局部学习的概念。b、基于云的机器学习原理。c、联邦学习,数据由数据贡献者保存,计算在本地数据存储和可用性站点执行,但参数设置由中央参数服务器编排。d、不需要中央保管人的SL原则。e, Swarm网络示意图,由Swarm边缘节点组成,这些节点交换参数进行学习,使用区块链技术实现。每个节点使用私有数据,同时使用Swarm网络提供的模型。f - 1,所用转录组数据集的描述。f, g,数据集A1 (f;n = 2500)和A2 (g;n = 8,348):两个基于微阵列的pbmc转录组数据集。h,数据集A3: 1,181个PBMCs基于rna序列的转录组。i,数据集B: 1999个基于rna序列的全血转录组。j,数据集E: 2400个基于rna序列的全血和粒细胞转录组。k,数据集D: 2,143个基于rna序列的全血转录组。1、数据集C: 95,831张x射线图像。CML,慢性髓性白血病;慢性淋巴细胞白血病;正,感染;迪亚布。2型糖尿病;MDS,骨髓增生异常综合征;MS,多发性硬化;JIA,幼年特发性关节炎;结核、结核;HIV,人类免疫缺陷病毒;AID,自身免疫性疾病。

a、实验设置概述。由生物重复组成的数据被分成不重叠的训练集和测试集。训练数据被隔离在Swarm边缘节点1-3,测试节点T作为独立的测试集。SL是通过按照补充信息中描述的步骤将1-3个节点进行集成以进行训练来实现的。红色和蓝色条形图表示节点间病例和控制的特定场景分布;百分比描述了来自完整数据集的样本的百分比。b,使用数据集A2的场景,其中病例和对照以及节点之间的样本大小分布不均匀。c、不同训练节点上的病例和对照数量不均匀,但每个节点上的样本数量相似的场景。d,情景,来自A2的独立研究的样本被采样到不同的节点,导致每个节点的病例和对照数量不同。e,每个节点从不同转录组学技术获取样本的场景(节点1-3:数据集A1-A3)。测试节点从每个数据集A1-A3中获取样本。b-e,箱形图显示了分别对3个训练节点和SL进行100次排列的准确性。所有样本都是生物重复。中心圆点,表示;盒限,第一和第三四分位数;最小值和最大值。精确度定义为仅用于测试的独立的第四个节点。采用连续性校正的单侧Wilcoxon符号秩检验计算SL与所有单个节点(包括所有排列)结果的统计差异;*P < 0.05,确切P值见补充表5

a、使用数据集D的COVID-19爆发场景,实验设置如图2a所示。b,平均流行度a的评估,显示每个训练节点和测试节点上的SL的准确性、敏感性、特异性和F1评分为50个排列。c、数据集E的爆发场景,特别是E1-6的80:20训练:测试分割。训练数据分布到6个训练节点上,独立的测试数据放在测试节点上。d,评估c显示AUC,准确性,敏感性,特异性和20个排列的F1评分。所有样本均为生物复制品。中心圆点,表示;盒限,第一和第三四分位数;最小值和最大值。采用连续性校正的单侧Wilcoxon符号秩检验计算SL与所有单个节点(包括所有排列)结果的统计差异;*P < 0.05, P值见补充表5。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周yyyyyyyyyy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值