说在前面
今天看了 Generating Differentially Private Datasets Using GANS,明天要讨论。老师不知道从哪里挖出了这篇被拒了的文,
研究的主题和我们最近的工作非常相关,而且证明非常有趣,大致地看了一下文章的结构觉得没啥问题,但是看评审的comments感觉发现了不一样的视角,
但是他们差分隐私的证明还是值得梳理。可能是学科视角的原因?我一学统计的看这种文章总是觉得有些奇怪。原文☞https://openreview.net/forum?id=rJv4XWZA-
生成器:从数据中学习数据的概率分布p(data),抽样生成数据
判别器:增加一个高斯噪音层,使输出的数据实现差分隐私效果,从而使生成器的权重也能实现差分隐私。
流程:敏感数据集通过判别器,向前传递,加上噪音,训练生成器,生成器产生新数据集。
如何实现差分隐私
记号$pi$: 高斯噪音层
$x_pi,x_pi^prime: pi$层的输入
$hat{y},hat{y}^prime = N(X),N(X)$: 神经元网络最后一层输出
引理1如果高斯噪音层的输入保证$X,X^prime$的邻接性质,且层的输出保证$(epsilon, delta)$差分隐私
定理1(向前传递)如果一个确定的(没有dropout)向前传递神经元网络的高斯噪音层保证$(epsilon, delta)$差分隐私性质,那么
这个神经元网络的输出$hat{y}$也可以保证$(epsilon, delta)$差分隐私。
定理2(向后传递)如果一个向前传递网络的输出$hat{y}$保证$(epsilon, delta)$差分隐私,那么在第i次梯度下降的时候,权重更新
$omega_X^{(i)}$也可以保证$(epsilon, delta)$差分隐私。
结论(GAN)给定一个Gan,生成器的隐私约束和判别器(带有隐私保护层)的隐私保护水平是一样的。
定理3(私人标签)如果一个向前传递网络N的输出$hat{y}$保证$(epsilon_1, delta_1)$差分隐私,训练标签
$tilde{y}$保证$(epsilon_2, delta_2)$差分隐私,那么在第i次梯度下降的时候,权重更新
$omega_X^{(i)}$也可以保证$(epsilon_1+epsilon_2, delta_1+delta_2)$差分隐私。
在标签的训练上,让数据X和监督标签y用不同的隐私保护机制$M_1和$和$M_2$,那么可以使用基础 顺序组合定理来获得隐私保护水平。
不足之处证明定理的过程不太清楚
要保证上述性质实现,discriminator必须有很强的性质,保证在噪音层前没有dropout和batch normalization
$epsilon$和经验分析比起来太小,怀疑是假的[评审意见]