Privacy-Preserving Generative Deep Neural Networks Support Clinical Data Sharing

Beaulieu-Jones B K, Wu Z S, Williams C, et al. Privacy-preserving generative deep neural networks support clinical data sharing[J]. Circulation: Cardiovascular Quality and Outcomes, 2019, 12(7): e005122.

医学类文章, 跟ccf无关

保护隐私的生成性深度神经网络支持临床数据共享

背景:数据共享加速了科学的进步,但是在分享个人层面的数据的同时,保护病人的隐私也是一个障碍。

方法和结果:使用成对的深度神经网络,我们生成了模拟的合成参与者,与SPRINT试验(收缩压试验)的参与者非常相似。我们表明,这种配对网络可以用差分隐私进行训练,这是一个正式的隐私框架,它限制了对合成参与者数据的查询可以识别试验中的真实参与者的可能性。 建立在合成人群上的机器学习预测器可以推广到原始数据集。这一发现表明,合成数据可以与他人共享,使他们能够像拥有原始试验数据一样进行假设生成的分析。

结论。产生合成参与者的深度神经网络通过加强数据共享,同时保护参与者的隐私,促进了对临床数据集的二次分析和可重复的调查。

共享来自临床研究的个人层面的数据仍然具有挑战性。现状往往要求科学家在分享这些数据之前建立正式的合作关系并执行广泛的数据使用协议。除了最密切的合作,这些要求减缓甚至阻止了研究人员之间的数据共享。个人层面的数据对于某些二级数据分析(如倾向性评分匹配技术)和亚组分析至关重要。

即使是为强调数据共享的价值而专门设计的工作,也要求调查者执行数据使用协议。新英格兰医学杂志》最近举办了SPRINT(收缩压试验)数据分析挑战赛,以研究临床试验数据共享可能带来的好处。SPRINT临床试验考察了强化降低收缩压(<120毫米汞柱)与标准收缩压目标(<140毫米汞柱)治疗的功效。强化降压导致更少的心血管事件,该试验因受益而提前停止。对挑战数据的重新分析导致了个性化治疗评分和决策支持系统的发展,此外还对慢性肾脏病参与者的血压管理进行了更具体的分析。

我们试图找到一种不需要这种数据使用协议程序的方式来分享初始和探索性分析的数据。为此,我们开发了一种技术解决方案,用于生成与原始试验数据足够相似的合成参与者,使标准统计和机器学习分析产生有效的相同答案。其他旨在执行这一任务的方法通常分为两类:(1)具有可量化的隐私风险的抽样方法,或(2)生成式对抗网络(GANs),这是可以从复杂分布中生成现实数据的神经网络。在GAN中,2个神经网络互相训练:一个被训练来区分真实和合成数据(鉴别器),另一个被训练来生成合成数据(生成器)。GANs已经成为一类广泛使用的机器学习方法,最近被用于生物学和医学,并被用于生成生物医学数据。然而,使用传统的GANs来完成这项任务,并不能保证合成数据所揭示的真实参与者。 生成器神经网络有可能学会创建合成数据,从而揭示出实际的参与者数据。避免这种情况的方法之一是使用差分隐私,即参与者的敏感信息可能被泄露。差别化隐私允许在不损害人口中任何个人隐私的情况下发布有关人口的总体统计信息。特别是,差分隐私承诺保护个体受试者不因他们的数据出现在研究中而面临任何额外的伤害,而如果他们选择不参加研究,他们就不会面临这种伤害。

作为一个具体的例子,假设一个40岁的男人约翰持有一份健康保险单。根据他的年龄和性别的平均医疗费用报销情况,他的保费被定为3000美元。他的保费中有一部分是由于中风的可能性造成的,比如说,如果他这个年龄段的男性有0.03%的机会发生中风,那么他的保费就是9美元,花费30000美元。 约翰正在考虑是否参加一项医学研究,但由于他的高血压控制不佳,他担心研究会发现他比普通男性更容易中风。如果我们假设约翰选择不参加研究,而研究显示,那些高血压控制不佳的人患中风的可能性要高3倍。尽管没有参加研究,约翰的保险公司可能会将约翰的保费更新为3027美元(目前9美元的中风预期费用×3倍的可能性=27美元)。

现在,假设约翰选择了这项研究,研究人员得出结论,他患中风的可能性增加3倍。在研究过程中,研究人员发现约翰有一个专门针对他的额外风险因素,使他在未来一年内中风的风险至少增加20%。他的保费会因为他的参与而大幅增加吗?差分隐私确保这种情况不会发生。特别是,如果研究人员使用 ε = 1 ε=1 ε=1的值,那么保险公司对约翰在下一年中风的概率估计可以从0.09%增加到最多0.09%(1+1)=0.18%。因此,约翰的保险费可以从3000美元增加到最多3054美元。换句话说,约翰参加研究的成本,就其保险费的额外增加而言,最多是27美元。

Nissim 等人提供了一份特别有用的入门资料,说明如何为非技术受众理解差分隐私,以及如何评估特定隐私参数的值。美国人口普查局在 2020 年的美国人口普查中采用了差分隐私。人口普查局还提供了关于选择适当的隐私损失的指导。差分隐私的一般背景可以在Dwork和Roth中找到,而Abadi等人介绍了深度学习的差分隐私。

在这项研究中,我们将差分隐私引入GAN框架,并评估差分隐私GAN可以在多大程度上产生可以共享的生物医学数据,用于有效的再分析,同时控制参与者的隐私风险。我们通过限制训练期间任何单一参与者的最大影响,然后添加少量的随机噪声来实现差分隐私。关于我们使用差分隐私的更详细的技术解释可以在数据补充中的方法中找到。我们通过以下方式评估有用性:

(1)比较真实和模拟数据之间的变量分布;

(2)比较真实和模拟数据中变量之间的相关结构;

(3)由3名临床医生对个人层面的数据进行盲评;

(4)比较在真实和模拟数据上构建的预测器。

该方法通过这些评价中的每一项都产生了真实的数据。

做了如下实验:

对真实与合成样本“Mann-Whitney U 检验”

3个数据集上训练3个分类器,
(1)真实的训练数据集
(2)由非私有AC-GAN产生的合成参与者
(3)由私有AC-GAN产生的合成参与者
在相同的真实数据集中进行评估

原始数据和真实数据各列之间的成对皮尔逊相关性

临床医生人工判定数据真实性

在合成数据上训练的机器学习模型对真实数据来说是准确的(逻辑回归/随机森林/SVM/最近邻/)

根据差分隐私的(ε,δ)表述来评估隐私

方法

我们使用一种被称为辅助分类器生成对抗网络(AC-GAN)的GAN,根据SPRINT临床试验的人群模拟参与者。我们包括了所有在前12次SPRINT访问中测量过的参与者(n=6502),将他们分为训练集(n=6000)测试集(n=502)。为了评估在生成合成参与者数据期间应用不同隐私的效果,我们使用训练集训练了2个AC-GANs:一个传统的、标准的AC-GANs(在本文的其余部分,结果被称为非隐私)和一个根据不同隐私训练的AC-GANs(结果被称为隐私)。我们使用这两个GANs来模拟数据,然后通过可视化参与者的血压轨迹、分析变量的相关结构以及评估在合成数据上训练的预测模型是否达到与在真实数据上训练的模型类似的性能,将其与真实的SPRINT数据进行比较。三位临床医生试图预测参与者是真实的还是合成的,以及他们是在标准还是强化治疗组。

用于SPRINT临床试验数据的AC-GAN

一个AC-GAN(数据补充中的图IA)是由2个神经网络相互竞争组成的。有关神经网络结构的细节可在数据补充中的方法中找到。我们训练生成器(G),使其接受指定的治疗组(标准/密集)和随机噪声,并生成能骗过判别器(D)的新参与者。生成器接受指定的治疗组,生成属于指定治疗组的参与者。这个标签和附加任务是AC-GAN和标准GAN的区别。生成器模拟了每个合成病人在12次SPRINT研究访问中每次的收缩压、舒张压和药物数量。我们训练判别器从包含两组数据的数据集中区分真实和模拟数据。我们重复这一过程,直到生成器创建的合成参与者难以与真实参与者区分开来(即辨别器的准确度无法提高到≈50%)。

结合差分隐私进行训练

为了限制参与者参与试验的可能性,我们需要限制任何一个研究参与者对判别器的神经网络训练的影响,这是AC-GAN中唯一访问真实数据的部分。神经网络的训练采用梯度下降法,根据损失函数的梯度来调整权重。从非技术角度看,这意味着采取一系列的步骤,提供更准确的输出。为了纳入差分隐私,我们限制任何这些步骤的最大距离,然后添加少量的随机噪声。对这些过程的详细解释见数据补充中的方法和Abadi等人的文章 。

SPRINT临床试验数据

SPRINT是一项随机、单盲的治疗试验,将高血压参与者分为强化治疗(收缩压目标值<120毫米汞柱)和标准治疗(收缩压目标值<140毫米汞柱)。该试验共包括9361名参与者。我们纳入了6502名参与者,他们在前12次测量中每次都进行了血压测量(RZ、1M、2M、3M、6M、9M、12M、15M、18M、21M、24M和27M)。我们包括对收缩压、舒张压的测量,以及对每个参与者开出的药物数,在12个时间点共评估了3个参数。

临床评估

三位医生对显示收缩压、舒张压和12次就诊中每次的药物数量的100个数字进行了盲目的真实或合成判断。这些心脏病专家对患者的真实程度进行了分类(从1到10,其中10是最真实的),以及患者是否被随机分配到SPRINT的标准或强化治疗组。在审阅数字之前,以及在审阅数字的过程中,临床医生们回顾了已公布的SPRINT方案,以帮助了解数据的背景。我们进行了Mann-Whitney U检验,以评估真实或合成样本是否获得了明显不同的分数,并比较了治疗组分类的准确性。

SPRINT试验中的转移学习任务

在我们的分析数据集中的6502名参与者中,每个人都被标记为治疗组。我们对机器学习方法(逻辑回归、支持向量机和scikit-learn18软件包中的随机森林)进行评估,看它们是否有能力预测参与者的治疗组。这是通过将6502名参与者分成6000名参与者的训练集(本文中称为真实集)和502名参与者的测试集来完成的。然后,我们使用6000名参与者的训练集训练了2个AC-GAN,(1)一个没有差分隐私的AC-GAN模型(称为非隐私)(2)一个有差分隐私的AC-GAN(称为隐私)。然后在3个数据集上训练3个分类器,(1)真实的训练数据集(2)由非私有AC-GAN产生的合成参与者,以及**(3)由私有AC-GAN产生的合成参与者**。然后,每个分类器都在相同的、真实的参与者测试集中进行评估。这样就可以比较在真实数据、合成数据和私人合成数据上训练的模型之间的分类性能(用接收者特征曲线下的面积衡量)。我们既评估了准确性,也评估了重要特征(随机森林)和模型系数(逻辑回归和支持向量机)之间的关联性。

预测重症监护数据库中的心力衰竭的医疗信息市场

我们为预测心力衰竭的目的而生成了合成病人。MIMIC是一个由46297份去掉身份识别的电子健康记录组成的数据库,用于记录贝斯以色列的危重病人。我们将患有心力衰竭的患者定义为MIMIC中任何被诊断为国际疾病分类第九版代码的患者,该代码包括在退伍军人事务部的慢性心力衰竭质量改进研究计划的指南中:(402. 01, 402.11, 402.91, 404.01, 404.03, 404.11, 404.13, 404.91, 404.93, 428, 281.1, 428.20, 428.21, 428.22, 428.23, 428.30, 428.31, 428.32, 428.33, 428.40, 428.41, 428.42, 428.43, 和428.9)。我们对平均动脉血压、动脉收缩压和舒张压、每分钟心跳、呼吸频率、外周毛细血管氧饱和度(Spo2 )、平均无创血压、平均收缩压和舒张压至少有5次测量值的患者进行完整的病例分析。对于这些数值有超过5次测量的病人,使用前5次。这产生了8260名患者和2110例心力衰竭患者。我们将前7500名患者纳入训练集,其余760名患者纳入验证集。训练和转移学习程序与SPRINT协议一致。

结果

image-20220717231225229

图1. 从初次访问到27个月的收缩压中位数轨迹。

我们训练了一个差分隐私的AC-GAN,以生成5000个类似于真实试验参与者的合成参与者(图1)。由于AC-GAN是在不同的隐私条件下训练的,我们可以释放模型或根据需要生成尽可能多的病人,而不会对训练产生额外的影响,因为不同的隐私条件对后处理是稳健的。15 我们比较了3组的收缩压中值(图2),(1)真实参与者(真实),(2)通过非隐私AC-GAN(非隐私)模拟参与者,以及(3)通过不同的隐私AC-GAN(隐私)模拟参与者。训练结束时生成的非私有参与者看起来与真实参与者相似。由于在训练过程中加入了噪音,私人参与者具有更广泛的变化性(图1A)。

image-20220717231838445

图2. 列之间的成对皮尔逊相关性。A,原始数据和真实数据,(B)非私有和辅助分类器生成对抗网络(AC-GAN)的模拟数据,以及(C)不同的私有和AC-GAN模拟数据(RZ,随机化访问。1M,1月访问;2M,2月访问;3M,3月访问;6M,6月访问;9M,9月访问;12M,12月访问;15M,15月访问;18M,18月访问;21M,21月访问;24M,24月访问;以及27M,27月访问)。

该表比较了3组之间计算的统计数据的接近程度,以及真实和合成参与者之间治疗决定的比较。特别是,我们研究了当参与者的收缩压超过其治疗组的目标收缩压(强化组为 120 120 120毫米汞柱,标准组为 140 140 140毫米汞柱)时,添加额外药物治疗的比例。对于这项任务,私人合成的参与者密切反映了原始试验的情况(15.51%对15.14%)。这表明,在获取和确认真实数据中的假定关系之前,有可能使用合成数据有意义地提出问题。

表: 真实的、非私人合成的和私人合成的参与者之间的汇总统计比较,平均值(SD)

image-20220717234944036

作为确定所产生的合成数据是否与真实数据相似的另一种方法,我们测量了每个研究访问的收缩压、舒张压和用药次数之间的相关性。 我们在SPRINT数据集(真实的相关结构)和由没有差分隐私的GAN和有差分隐私的GAN生成的数据集(分别为非隐私相关结构和隐私相关结构)中进行了这种分析。真实SPRINT数据的Pearson相关结构(图2A)密切反映在非隐私生成数据的相关结构(图2B)中。 值得注意的是,参与者服用的药物数量与早期收缩压之间最初是正相关的,但随着时间的推移,这种相关性下降。真实的SPRINT数据(即训练数据)和非隐私数据的皮尔逊相关结构(即图2A和2B中对角线以下的数值)是高度相关的(Spearman相关=0.9645;P值<0.0001)。在合成数据生成过程中加入不同的隐私(即隐私数据集)产生的数据总体上反映了这些趋势,但噪声水平增加(图2C)。真实的SPRINT数据和私人生成的数据之间的相关矩阵仅有轻微的相关性(Spearman相关性=0.9185;P值<0.0001)。私人判别器的嘈杂训练过程对其适应数据分布的能力提出了一个上限。增加样本量(如EHR或其他真实世界的数据源)将有助于澄清这种分布,并且由于更大的样本量会导致更少的隐私损失,因此需要添加更少的噪音以达到可接受的隐私预算。

真实与合成参与者的人体比较

image-20220718165334084

图3. 临床医生对合成数据的评价。A,临床专家给合成的参与者打2分。B, 临床专家给合成的参与者打了4分。C,临床专家给合成的参与者打了6分。 D, 临床医生专家给合成的参与者打了8分。E, 真实参与者和合成参与者的分数比较(红色虚线表示平均值)。F, 真实(蓝色)和合成(绿色)病人之间的分数分布。BP表示血压。

为了确保合成数据和真实的SPRINT数据之间的相似性,在更细化的严格检查中,我们要求3位临床医生判断单个参与者的数据是真实的SPRINT数据还是合成数据。这3位在高血压治疗方面有经验且熟悉SPRINT试验的医生,被要求以盲法的方式判断100名参与者(50名真实的和50名合成的)是否真实。临床医生寻找与SPRINT协议不一致的数据,或出现异常的数据。例如,临床医生对收缩压<100毫米汞柱,但参与者被开了额外药物的情况保持警惕。将每条记录按0到10的真实度进行分类(10是最真实的),以及数据是否对应于100名参与者的标准或强化治疗(图3A至3D)。 合成患者(N=150)的平均真实性得分是5.18,真实患者的平均得分是5.26(N=150;图3E)。我们进行了Mann-Whitney U检验,以评估这些分数是否来自明显不同的分布,发现P值为0.333。临床医生将76.7%的真实SPRINT参与者和82.7%的合成参与者正确归类为标准组或强化组。在这个过程中,在没有事先指导的情况下,临床医生遵循了几个有趣的模式,并通过访谈得到了证实。 (1)他们尽量避免选择5,因为这不会提供任何信号表明他们认为这个例子是真实的还是合成的;(2)他们一般没有足够的信心选择两边的极端分数。这些行为可以从结果的二元分布中看出。

在模拟参与者身上训练的机器学习模型对真实参与者来说是准确的

image-20220718165557359

图4. 在合成参与者与真实数据上训练的模型的准确性。线条表示在真实数据上的表现,平均来说应该提供最好的表现;条形表示在私人合成参与者上训练的分类器的表现;图表的底部表示随机表现。

临床医生的审查、参与者分布的可视化以及变量的相关性表明,合成参与者似乎与真实参与者相似。接下来,我们试图确定使用合成数据进行的后续数据分析是否与真实数据相匹配。为此,我们使用4种方法(逻辑回归、随机森林、支持向量机和最近的邻居)训练机器学习分类器,以区分3种不同数据来源的治疗组:真实参与者、由非私有模型生成的合成参与者和由私有模型生成的合成参与者。我们比较了这些分类器在一个单独的由502名真实参与者组成的测试集上的表现,这些参与者没有被纳入训练过程(图4)。性能的下降是预料之中的,因为增加噪音以保持隐私会减少信号。如果需要,训练一个非隐私模型可以为预期性能提供一个近似的上限。

image-20220718170849127

图6. 机器学习和合成数据的统计评估。A-D,按各机器学习方法的训练数据来源,转移学习任务的表现。E,原始数据和真实数据各列之间的成对皮尔逊相关性。F,私人合成数据各列之间的成对皮尔逊相关性。AUROC表示接收者操作特征下的面积;LR,逻辑回归;RF,随机森林。

我们还试图确定在真实与合成数据上训练的分类器在多大程度上依靠相同的特征来进行预测(数据附录中的图六)。我们发现,在真实与合成数据上训练的模型的重要性分数(随机森林)和系数(支持向量机和逻辑回归)之间存在着显著的相关性(数据附录中的表一)。此外,需要注意的是,这些模型在依靠>10个特征的情况下实现了它们的性能,而且水平相对均匀(数据附录中的图六),证明了捕捉多变量相关性的能力。最后,我们测试了第一个交叉验证褶皱与真实数据内其他褶皱之间的相关性,以设定预期相关性的上限(数据附录中的图七)。

隐私分析

我们根据差分隐私的(ε,δ)表述来评估隐私。参数ε衡量的是通过增加或删除一个参与者可以观察到的最大数据集转移(称为隐私损失)。第二个参数,δ,是隐私损失超过ε的概率的上限。换句话说,ε代表没有隐私泄露的最大隐私损失,δ代表隐私泄露的概率。我们用这种方式来框定问题,因为我们不可能预见到所有未来的攻击方法。更多细节请参考数据附录中的方法。

image-20220718165859000

图5. 不同ε值下delta值与历时的关系。ε值为3.5,允许1000个epochs的训练,δ<10^{-5}。

因此,为 ε ε ε δ δ δ选择对特定用例满意的值,并与隐私泄露的后果相对应,是很重要的。 ( ε , δ ) (ε, δ) (ε,δ)的值随着算法(AC-GAN的判别器)访问私人数据而增加。在我们的实验中,我们的私有AC-GAN算法能够在 ε = 3.5 ε=3.5 ε=3.5 δ < 1 0 − 5 δ<10^{-5} δ<105的情况下产生有用的合成数据(图5)。纪元选择任务(数据补充中的方法)的上限在每个模型中使用(0.05,0),共包括(0.5,0)的差分隐私。这建立了一个适度的、个位数的ε隐私预算 ( 4 , 1 0 − 5 ) (4,10^{-5}) (4,105),与其他使用差分隐私的深度学习方法相当或更低。

预测MIMIC重症监护数据库中的心力衰竭

我们将该方法应用于MIMIC重症监护数据库19,以证明其通用性。我们测试了我们的方法是否可以应用于第二个数据集,通过对7222名患者的9个生命体征测量的前5个测量值来预测心力衰竭。生命体征测量包括:平均动脉血压、动脉收缩压和舒张压、每分钟心跳、呼吸频率、外周毛细血管氧饱和度(Spo2)、平均无创血压、以及平均收缩压和舒张压。 对私人生成的合成病人的表现与对真实病人训练的表现模型相当(图6A至6D)。与SPRINT数据一样,逻辑回归和支持向量机的系数以及特征重要性在真实和合成数据之间有明显的相关性(数据附录中的表二)。

讨论

深度GANs和差分隐私为共享生物医学数据以促进探索性分析的挑战提供了技术解决方案。我们的方法,使用深度神经网络进行数据模拟,可以产生合成数据,用于分发和二次分析。我们用差分隐私框架进行训练,限制研究参与者的隐私风险。我们将这种方法应用于SPRINT临床试验的数据,因为它最近被用于数据再分析的挑战。

我们引入了一种方法,从多个历时中取样以提高性能,同时保持隐私。然而,这是一项早期的工作,仍然存在一些挑战。深度学习模型有很多训练参数,需要大量的样本量,这可能会阻碍这种方法用于小型临床试验或有针对性的研究。在这项研究中,我们证明了在相对低维的时间序列数据集上使用差异化私有AC-GANs的能力。我们将我们的方法应用于时间序列,因为我们认为这比简单的时间点数据提供了一个更好的测试,因为会有基于时间的相关结构。我们希望这种方法最适合于分享临床试验中的特定变量,以便广泛分享与实际数据属性相似的数据。我们不打算将该方法应用于从全基因组序列或其他此类特征生成高维遗传数据。应用于该问题需要选择感兴趣的变体子集或大量额外的方法学工作。

另一个富有成效的使用领域可能是大型电子健康记录系统,在那里分享合成数据的能力可能有助于方法的开发和预测模型的初步发现。同样地,金融机构或其他使用外部承包商或顾问开发风险模型的组织可能会选择分享生成的数据,而不是实际的客户数据。在非常大的数据集中,有证据表明不同的隐私甚至可以防止过度拟合以减少后续预测的错误。

虽然我们的方法提供了一个一般的框架,但精确的神经网络架构可能需要针对具体的使用情况进行调整。具有多种类型的数据是一个挑战。EHRs包含二进制、分类、序数和连续数据。神经网络需要对这些类型进行编码和规范化,这一过程会减少信号并增加数据的维度。新的神经网络已被设计成能更有效地处理离散数据。20,21 研究人员将需要结合这些技术,并为混合类型开发新的方法,如果他们的使用情况需要的话。

由于安全和最佳实践的多变性,选择一种在数学上可证明的方法是很重要的,并确保任何输出对后处理是稳健的。差分隐私满足了这两个需求,因此在即将到来的2020年美国人口普查中被依赖。22 必须记住的是,要获得差分隐私的保证,需要适当的实施。我们认为,确保准确实施的测试框架是未来工作的一个有希望的方向,特别是在像医疗保健这样具有高度敏感数据的领域。

用深度神经网络生成差分隐私下的数据的做法,为那些希望分享数据的人提供了一个技术解决方案,以应对病人隐私的挑战。这项技术工作补充了正在进行的改变临床研究的数据共享文化的努力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值