差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

最新推荐文章于 2025-04-15 17:11:06 发布

echoKangYL

最新推荐文章于 2025-04-15 17:11:06 发布

阅读量5.2k

点赞数 17

分类专栏：差分隐私机器学习文章标签：深度学习机器学习安全

本文链接：https://blog.csdn.net/echoKangYL/article/details/125159523

版权

机器学习同时被 2 个专栏收录

11 篇文章

订阅专栏

差分隐私

2 篇文章

订阅专栏

本文深入探讨了在保护个人敏感信息的前提下进行深度学习的差分隐私方法。重点介绍了MomentsAccountant算法，这是一种用于计算隐私预算的有效方法，显著降低了在训练过程中数据隐私泄露的风险。该算法结合了梯度裁剪和高斯噪声添加，确保模型训练的差分隐私性。同时，文章阐述了差分隐私的基本原理，包括敏感度和隐私损失的概念，并通过定理和引理证明了算法的隐私保证。实验部分虽未详述，但强调了理论分析的重要性，尤其是对于优化和泛化误差的理论讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文向大家介绍一下一篇CCS 2016的工作，文章的名字叫Deep Learning with Differential Privacy，在网上应该很容易就能找到，如果有朋友找不到还有兴趣的话可以私信我把文章发过去。

这篇文章提出了一种叫Moments Accountant的隐私预算（privacy budget）计算方法，直到今天依然差分隐私机器学习领域是最常用（也是最优越）的隐私预算计算方法之一。

虽然本文为了验证其所提出的Moments Accountant方法做了很多实验，但是我们重点关注其理论部分，对于实验部分我们不做大篇幅的解读，有兴趣的朋友们可以参考原论文，也欢迎大家一起讨论。

【一】背景

从文章标题就能看出来：深度学习已经火了这么多年，但是其训练使用的数据可能是众包的，所以很有可能是具有个人敏感信息的，为了保证这种敏感信息在训练过程和模型发布的过程中不被泄露，本文提出一种具有差分隐私保证的深度学习算法。
文章所提到的背景其实很容易理解，所以我们在这里就不用过多的篇幅去展开，有兴趣的朋友可以参考论文原文。

【二】准备活动

在介绍文章提到的方法之前，首先我们要知道差分隐私（Differential Privacy）究竟是什么。
用一个公式来说明，就是这么个东西：
$\mathbb{E}\left[\mathcal{M}(d)\in S\right]\leq e^{\epsilon}\mathbb{E}\left[\mathcal{M}(d')\in S\right]+\delta.$

如果对于相邻数据集 $d, d^{'}$ ，算法 $\mathcal{M}$ （在各种文章中通常被称为mechanism）的输出满足上面的不等式的话，那么我们说 $\mathcal{M}$ 是满足 $(\epsilon,\delta)$ -差分隐私的。
相邻数据集的概念就是两个数据集只有一条数据样本不同，公式中的 $S$ 是算法输出的值域，其最初的定义可以参考文章差分隐私相关论文(1) —— Differential Privacy, Dwork 2006。

我们可以看到，差分隐私保证了在只更改一条数据的情况下，算法 $\mathcal{M}$ 的输出是基本一致的（一致性的强弱由隐私预算 $(\epsilon,\delta)$ 所控制，隐私预算越小，一致性越强）。

这样说可能还是有点绕，我们用一幅图来直观地对比一下，图中蓝黄线分别表示在相邻数据集上训练得到的模型。
请添加图片描述
看了这张图，相信大家都可以理解，在差分隐私定义下，攻击者很难通过观察训练得到的模型反推出个人信息，因为这些模型是相似的。

最后，再多啰嗦一句，两个隐私预算 $\epsilon,\delta$ 中， $\epsilon$ 控制我们上文所说的“一致性”， $\delta$ 表示 $\epsilon$ -差分隐私失败的可能性（概率）。
因此，两个值都是越小越好。
在通常情况下，我们会将 $\delta$ 设置为小于 $1 / n$ ， $\epsilon$ 设置为小于 $1$ ，以得到有意义的差分隐私保证。

除此之外，文中还介绍了深度学习的一些基础表示，像梯度下降这样的“常识”，我们默认大家都有这方面的基础，在这里就不详细介绍了，有兴趣的朋友可以参考论文原文，本博客中也有一些相关知识，如果能帮到大家我也是很开心的~

【三】算法

基于随机梯度下降（SGD），本文提出了这样的差分隐私算法：
请添加图片描述
算法并不复杂，相较于传统的SGD而言，只是多了梯度裁剪（Clip gradient）和添加噪声（Add Noise）这两个操作。
其中梯度裁剪是为了界定住梯度的 $\ell_2$ -敏感度（sensitivity）（敏感度是一个差分隐私领域中极其重要的概念，有兴趣的朋友可以参考文章差分隐私相关论文(1) —— Differential Privacy, Dwork 2006），而添加噪声是利用随机的方式保证差分隐私（在文章差分隐私相关论文(1) —— Differential Privacy, Dwork 2006 中也有详细说明）。

【四】Moments Accountant方法

介绍完算法，本文的重头戏来了，先上定理：
请添加图片描述
这个定理说明了，如果添加的高斯噪声方差满足上面这个式子，那么在第三部分中的那个算法就满足 $(\epsilon,\delta)$ -差分隐私，其中 $q$ 是mini-batch的采样概率， $T$ 是算法的迭代次数。

这个公式乍一看平平无奇，但是在那个年代，大家还在用基础的高斯机制的strong composition性质添加噪声，这个理论的出现直接就把噪声界往下面压了 $\bm{\log(T/\delta)}$ 这样一个数量级。
虽然做理论的这些文章在讨论误差界的时候都会把 $\log(\cdot)$ 这样量级的东西忽略掉，但是这样的提升其实已经很大了，特别是在实验或者应用方面。

【题外话】
后来，Di Wang 在NIPS2017的工作：Differentially Private Empirical Risk Minimization Revisited: Faster and More General证明了，对于全梯度下降算法（GD），如果 $\sigma=\mathcal{O}(c\frac{\sqrt{T\log(1/\delta)}}{n\epsilon})$ ，那么差分隐私就是可以保证的。
【题外话结束】

现在我们再回来这篇文章，这种优化是怎样来的呢？
是因为本文使用了一种新的理论分析方法。

首先，本文定义了一个隐私损失（privacy loss）的概念：
请添加图片描述
公式中的 $c$ 就是定义在输出 $o$ 上的privacy loss，它的本质（等号右边）是算法 $\mathcal{M}$ 在相邻数据集 $d, d^{'}$ 上输出均为 $o$ 的概率的差异。

看看等号右边的这个形式，是不是有点眼熟，非常像某种熵的形式对吧。

我们接着往下看。
借由privacy loss的定义，本文接下来定义了这样一个moment，并对其在所有的相邻数据集 $d, d^{'}$ 上取上界。
这个取上界的操作很容易理解，因为对于隐私泄露而言，满足上界就满足所有数据点。
请添加图片描述
来，看上图中式（2），是不是更熟悉了。

【题外话】
其实把式（1）带入到式（2）里面，能写出来一个瑞丽（Renyi）熵的形式，所以各种瑞丽熵的性质也可以用到这个里面（这也是后来很多基于Moments Accountant方法做差分隐私的论文很常使用的技巧）。
但是Abadi这篇论文并没有在这里浪费过多笔墨，就只是把一切证明平推过去。
【题外话结束】

为了证明上面的定理1，本文先证明了这两个定理：请添加图片描述
第一个部分（Composability）很容易证，就是把这个左边的moment： $\alpha$ 写出来然后用privacy loss（ $c$ ）的定义和 $\log(\cdot)$ 的性质推一下就可以了。

第二个部分是把 $\mathcal{M}(d)$ 全集拆分成了privacy loss（ $c$ ）大于 $\epsilon$ 和小于 $\epsilon$ 两个子集，然后证明 $c(o)\geq\epsilon$ 那个部分的概率不大于 $\exp(\alpha-\lambda\epsilon)$ ，那么根据我们上面所说的: $\delta$ 表示 $\epsilon$ -差分隐私失败的概率，就很容易推出第二个Tail bound部分。
值得一提的是，把全集拆分成 $c(o)\geq\epsilon$ 和 $c(o)\leq\epsilon$ 两个部分的操作方式（或者相似的思路）在分析差分隐私的文章中非常常见，大家有兴趣的话可以留意一下。

然后，本文最复杂的一个lemma来了：
请添加图片描述
这个lemma界定了高斯机制（Gaussian mechanism）的moments bound，通过这个bound（以及刚刚Theorem2中的Composability），我们可以得到算法1的 $\alpha(\lambda)\leq Tq^2\lambda^2/\sigma^2$ 。