gan处理自己的数据集_用GAN生成差分隐私数据集

本文介绍了如何利用GAN结合差分隐私技术,生成保护隐私的新数据集。通过在判别器中添加高斯噪音层,确保生成器权重和输出数据的差分隐私。文章探讨了向前和向后传递的差分隐私性质,并在GAN框架下得出结论,生成器和判别器的隐私保护水平相当。然而,证明过程的清晰度和实际应用中的$epsilon$值是其不足之处。
摘要由CSDN通过智能技术生成

说在前面

今天看了 Generating Differentially Private Datasets Using GANS,明天要讨论。老师不知道从哪里挖出了这篇被拒了的文,

研究的主题和我们最近的工作非常相关,而且证明非常有趣,大致地看了一下文章的结构觉得没啥问题,但是看评审的comments感觉发现了不一样的视角,

但是他们差分隐私的证明还是值得梳理。可能是学科视角的原因?我一学统计的看这种文章总是觉得有些奇怪。原文☞https://openreview.net/forum?id=rJv4XWZA-

生成器:从数据中学习数据的概率分布p(data),抽样生成数据

判别器:增加一个高斯噪音层,使输出的数据实现差分隐私效果,从而使生成器的权重也能实现差分隐私。

流程:敏感数据集通过判别器,向前传递,加上噪音,训练生成器,生成器产生新数据集。

如何实现差分隐私

记号$pi$: 高斯噪音层

$x_pi,x_pi^prime: pi$层的输入

$hat{y},hat{y}^prime = N(X),N(X)$: 神经元网络最后一层输出

引理1如果高斯噪音层的输入保证$X,X^prime$的邻接性质,且层的输出保证$(epsilon, delta)$差分隐私

定理1(向前传递)如果一个确定的(没有dropout)向前传递神经元网络的高斯噪音层保证$(epsilon, delta)$差分隐私性质,那么

这个神经元网络的输出$hat{y}$也可以保证$(epsilon, delta)$差分隐私。

定理2(向后传递)如果一个向前传递网络的输出$hat{y}$保证$(epsilon, delta)$差分隐私,那么在第i次梯度下降的时候,权重更新

$omega_X^{(i)}$也可以保证$(epsilon, delta)$差分隐私。

结论(GAN)给定一个Gan,生成器的隐私约束和判别器(带有隐私保护层)的隐私保护水平是一样的。

定理3(私人标签)如果一个向前传递网络N的输出$hat{y}$保证$(epsilon_1, delta_1)$差分隐私,训练标签

$tilde{y}$保证$(epsilon_2, delta_2)$差分隐私,那么在第i次梯度下降的时候,权重更新

$omega_X^{(i)}$也可以保证$(epsilon_1+epsilon_2, delta_1+delta_2)$差分隐私。

在标签的训练上,让数据X和监督标签y用不同的隐私保护机制$M_1和$和$M_2$,那么可以使用基础 顺序组合定理来获得隐私保护水平。

不足之处证明定理的过程不太清楚

要保证上述性质实现,discriminator必须有很强的性质,保证在噪音层前没有dropout和batch normalization

$epsilon$和经验分析比起来太小,怀疑是假的[评审意见]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值