FedDPGAN: Federated Differentially Private Generative Adversarial Networks Framework

WuwuwuH_

已于 2023-03-20 09:52:20 修改

阅读量1.5k

点赞数 1

分类专栏：隐私保护机器学习文章标签：论文阅读人工智能隐私计算

于 2022-10-04 10:43:10 首次发布

本文链接：https://blog.csdn.net/WuwuwuH_/article/details/127159869

版权

隐私保护机器学习专栏收录该内容

13 篇文章

订阅专栏

文章目录

1 Abstract
2 Introduction
3 Preliminary
4 Proposed FedDPGAN Model
5 Experimental Results

论文地址：https://link.springer.com/article/10.1007/s10796-021-10144-6 =x100

1 Abstract

现有的深度学习技术通常学习生成对抗网络生成的胸部x光图像的特征来诊断COVID-19。这种方法会面临几种风险：1、GAN将会泄露训练数据的相关信息，攻击者能够使用这些信息对训练样本进行重构，从而导致患者的隐私泄露。2、由于样本数据的局限性，医院间通过数据分享的方式共同训练模型，同样会造成数据泄露问题。

为解决上述问题，提出了Federated Differentially Private Generative Adversarial Network (FedDPGAN)来探测COVID-19。使用DP-GAN来生成多种患者数据，差分隐私技术能够保证对训练集数据的隐私保护。利用FL使得医院无需分享原始数据便可共同训练机器学习模型。

2 Introduction

诊断新冠肺炎的深度学习模型的训练建立在大量标注实例和标注数据的基础上，医院很难找到足够的训练样本。研究者一般使用GAN生成不同的训练数据来解决该问题。但是GAN将会泄露训练数据的相关信息，攻击者能够使用这些信息对训练样本进行重构，从而导致患者的隐私泄露。因此，需要寻求一种方法来设计一个不暴露隐私的数据生成模型。

此外，研究者往往还通过数据分享策略来解决数据可用性问题。在通用数据保护条例(General Data Protection Regulation, GDPR) 颁布之前，医院一直使用数据共享方法来扩大训练样本的规模。但是GDPR规定，组织不允许任意共享用户数据，因为这会泄露用户隐私。特别是COVID-19数据是医疗数据，对患者非常敏感。因此，我们需要寻求新的学习方法，避免数据共享会泄露隐私，违反法律。

作者从以往的方法中获得灵感，并提出了FedDPGAN模型，以检测COVID-19肺炎而不损害患者隐私。DPGAN是提出的模型的一个关键组成部分，其功能是在训练梯度中加入高斯噪声，以保护训练样本的隐私。特别是，作者引入了一个联邦学习框架，并开发了一个分布式DPGAN，使不同的医院能够在不共享数据的情况下协作训练COVID-19诊断模型。具体来说，在FL及其聚合机制的帮助下，FedDPGAN可以聚合来自不同地理位置的医疗机构的模型参数，构建一个具有良好隐私保护的全局GAN模型。大量的真实数据研究表明，FedDPGAN模型比现有的集中式学习和基于FL的模型更好。

文章的贡献如下：1、与现有框架不同，提出了FedDPGAN框架，使不同的医院可以利用保护隐私的数据增强方法，即分布式DPGAN模型来生成高质量的训练样本，这缓解了COVID-19训练样本缺乏的问题，然后在FL中应用ResNet模型，实现高精度COVID-19检测。2、为了解决检测COVID-19的数据可用性问题，利用FL框架设计了一个分布式DPGAN。特别是，发现分布式DPGAN可以缓解FL中的非独立同分布（Non-IID）问题。具体来说，在FL及其聚合机制的帮助下，FedDPGAN可以通过聚合不同地理位置的医疗机构的模型参数来构建一个全局和局部的数据增强模型，以完成不同的医疗任务。3、对不同的肺炎CXR图像进行了广泛的案例研究，证明所提出的模型FedDPGAN比现有的集中学习和基于FL的模型更好。

3 Preliminary

3.1 Differential Privacy

ε为隐私预算，一般来说ε越小，隐私保护效果越好，但是加入的噪声越大，数据的可用性会降低。δ为错误概率，δ越小，两种数据分布越接近。根据定义，可以使用DP来保证训练数据语义信息的隐私性。但DP不能直接应用于深度学习，因为DP适用于数据库中的查询功能。因此，研究人员一般通过添加精心设计的高斯噪声将DP应用到深度学习中，这与差分隐私的定义是一致的。

公式右面后半部分表示从中心为 0 且标准差为S·σ2的高斯分布中抽样。

可以看出，表示噪音大小的敏感度参数的核心含义是表示删除数据集中的删除记录对查询结果的影响。也就是说，高斯噪声机制的噪声尺度变化与Sensitivity成正比。

3.2 Generative Adversarial Network

生成对抗网络（GAN）是一种无监督的方法。GAN包含两个部分。Generator随机地从latent space中抽取样本，并越来越多地模仿训练数据。Discriminator的输入集是真实的输出数据，它尽可能地将训练数据与真实样本区分开来。通过不断的博弈，Generator能够捕获数据的分布，Discriminator能够进行概率评估。他们在训练中对抗并不断调整参数，最终目标是使Discriminator无法判断Generator的输出结果是真还是假。GAN优化问题实际上是一个Generator和Discriminator的博弈，也就是一个最小最大化问题。

在这里插入图片描述

然而，上述优化模型存在着梯度消失和样本多样性的问题。因此，研究人员提出了一种优化的GAN，它解决了梯度消失的问题。

3.3 Federated Learning

作为一个有前途的分布式机器学习隐私保护框架，联邦学习通过将用户的本地数据保存在本地，只定期与服务器交换更新，从而降低他们的通信成本，保护用户的隐私数据。联邦学习训练在服务器与客户端之间进行，在T轮的通信回合中，按照如下步骤进行：
在这里插入图片描述

4 Proposed FedDPGAN Model

FedDPGAN为客户端服务器架构，服务器共享全局模型并且通过SGD优化器协调客户端的本地隐私保护DPGAN模型，如Fig.1所示。

4.1 Architecture of FedDPGAN

作者提出了一种保护用户隐私数据的方法，包括DP噪声机制以及FedDPGAN算法。框架中包含中心服务器S和客户端集合K及其对应的本地数据集Dk。

4.1.1 Distributed DPGAN

首先，提出分布式DPGAN机制。由于COVID-19数据的隐私性，在使用GAN生成COVID-19数据时需要对患者的隐私进行保护。作者使用添加高斯噪声的方式来训练梯度，来保证数据集的安全性。具体来说，作者向Discriminator中添加干扰原始数据分布的随机噪声，从而保护训练数据的隐私。

4.1.2 FedDPGAN Framework

按照FL中的客户端-服务器架构，中央服务器S选择一个随机的部分客户端集合C。然后，服务器聚合一个模型，将模型广播给每个客户端。在全局模型被初始化后，客户端将生成器模型的参数上传至聚合器。聚合器进行累计并计算平均值，然后更新全局模型，计算方法如公式（11）所示。

服务器协调多个客户端的更新，并将一个新的全局模型分享给客户端。客户端和服务器之间的具体步骤可以归纳为以下三个步骤：

步骤1：中心服务器挑选客户端子集。然后向其广播初始化Generator参数。

步骤2：初始化完毕后，所选择的客户端集合K在其本地数据上进行SGD的训练迭代。在有界范围内适当添加高斯噪声，然后在下次更新时自动clipping 参数添加噪声。客户端在更新权重参数后，在（-c, c）范围内截断权重参数，以优化判别器。

步骤3：客户端上传模型参数到Aggregator,Aggregator聚合所有模型参数并计算平均值，然后更新服务器中的全局模型，然后作为下一轮通信的初始点。

4.2 FedDPGAN-based COVID-19 Diagnosis Model

首先，作者使用公开的COVID-19数据集作为基准数据集来评估所提出的模型的性能。此外还需要在FedDPGAN中应用适合视觉任务的高级卷积神经网络结构，以实现更高的性能。

5 Experimental Results

作者使用ResNet模型来对X光图片进行分类从而诊断COVID-19。使用FedAvg聚合算法作为梯度聚合算法。在医疗领域，由于不同医院的数据是由不同类型的采集设备采集的，因此不同医院之间的数据是non-IID的。本文中，为了实现non-IID的数据分布，作者将两类数据，即正常胸部图像和普通肺炎图像分配给大多数客户，只将COVID-19图像放在少数客户中。

在这里插入图片描述