Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN:基于联邦学习的差分隐私合成数据生成
Abstract
本文提出:一种基于联邦学习的差分隐私生成对抗网络模型
将Lipschitz极限与差分隐私敏感性相结合,该模型可以在不牺牲训练数据隐私的情况下生成高质量的合成数据。
1.INTRODUCTION
GAN应用示例:从文本生成图像,从静止图像生成视频,提高图像分辨率。
Post-Processing
- DPGAN: 在训练中为鉴别器的梯度添加噪声,使GAN框架修改为差分隐私。
- PATE-GAN: 将修改后的PATE框架应用于GAN。
- GANobfuscator:使用精确设计的梯度剪枝策略,实现高质量的合成数据生成。
当前研究的不足:
出于隐私,集中式训练困难。
联邦学习差异隐私解决方案:
[15] Robin C Geyer, Tassilo Klein, and Moin Nabi, “Differentially private federated learning: A client level perspective,” arXiv preprint arXiv:1712.07557, 2017.
MD-GAN: 优化GAN模型分布式训练:
[17] Corentin Hardy, Erwan Le Merrer, and Bruno Sericola, “Md-gan: Multi-discriminator generative adversarial networks for distributed datasets,” in 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE, 2019, pp. 866–877.
本文贡献:提出GAN私有联邦学习(FL-GAN)
2.PRIVATE FEDERATED LEARNING OF GAN
2.1. Algorithm summary
现有研究:对模型最终参数添加噪声
本文:在训练过程中添加噪声。使用 moments accountant 实时记录训练中的隐私损失。
合成数据生成模型:梯度惩罚的WGAN
分布式存储数据训练模型:并行训练(parallel training);连环训练(serial training)
2.2. Algorithm framework
parallel training 核心思想:平均客户端的参数更新,完成每轮更新。
缺点: 频繁访问数据,增加隐私泄露风险;访问所有客户端后更新模型,对数据使用的浪费。
本文: 每个客户端依次更新同一模型参数。
2.3. The model learning procedure
在训练过程中添加噪声以满足差分隐私。
- 服务器初始化模型,包括鉴别器和生成器,将模型发送给任意客户端 i i i
- 客户端 i i i 训练 T g T_g Tg 轮,每轮训练中,鉴别器训练 T d T_d Td 轮后 合成器进行更新。
- 从余下客户端随机选一个,执行步骤 2 ,直到所有客户端都训练完,将最终模型返回服务器。
2.4. Theoretical analysis
私有FL-GAN建立在梯度惩罚的WGAN框架上,通过在更新鉴别器时加入噪声来实现差分隐私。
在计算每个训练数据的鉴别梯度后,加入高斯噪声(Alg.1 lines 10,11)。
使用隐私会计来跟踪训练中的隐私损失。a privacy accountant
Differential Privacy
随机函数 M M M 给出 ( ϵ , δ ) − d i f f e r e n t i a l p r i v a c y (\epsilon,\delta)-differential\quad privacy (ϵ,δ)−differentialprivacy,单条记录上所有不同的数据集 D 1 , D 2 D_1,D_2 D1,