CCS2016:Deep Learning with Differential Privacy

最新推荐文章于 2024-09-07 23:40:40 发布

XueDaxuan

最新推荐文章于 2024-09-07 23:40:40 发布

阅读量991

点赞数 1

分类专栏：差分隐私文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/daxuan1881/article/details/123089372

版权

差分隐私专栏收录该内容

18 篇文章

订阅专栏

motivation：基于神经网络的机器学习技术需要大量且有代表性的训练数据，其中包含了许多敏感信息，所以为了解决这个问题，提出了一种学习算法技术和对差分隐私的隐私损失进行详细分析。

key sentence：

1.在本文中，我们将最先进的机器学习方法与先进的隐私保护机制相结合，在一个适度的（“个位数”）的隐私预算内训练神经网络。我们处理模型用具有非凸目标、几层、数层和数万到数百万参数的元素。

2.我们证明，通过跟踪隐私损失的详细信息（更高的时刻），我们可以获得更严格的对总体隐私损失的估计，无论是渐近性的和经验上的。

3.通过引入新技术，提高了差分隐私训练的计算效率。这些技术包括计算个人训练梯度的有效算法，将任务细分为更小的批处理以减少内存占用，并在输入层应用差分隐私主成分投影。

差分隐私属性：

1.组合定理(composability):Composability enables modular design of mechanisms: if all the components of a mechanism are difffferentially private,then so is their composition.

2.群隐私(group privacy):Group privacy implies graceful degradation of privacy guarantees if datasets contain cor related inputs, such as the ones contributed by the same individual.

3.辅助信息的健壮性(robustness to auxiliary information):Robustness to auxiliary information means that privacy guarantees are not affected by any side information available to the adversary.

4.隐私损失性质

method：

1.整体架构

2.方法架构：

2.1Differentially Private SGD Algorithm

有人尝试去保护训练数据的隐私通过对最后输出层的参数进行变化，像是黑盒一样，但是加入过大的噪声会影响实用性。所以需要一种更复杂的方法去控制训练过程中的数据。对SGD算法进行一些修改和延伸在我们的privacy accounting。以下为算法1:（倒数第二步）take a step in the opposite direction of this average noisy gradient. 应该是反向传播

分组Lots:像普通的SGD算法一样，本算法通过计算一组例子的梯度并取平均估算L的梯度。这个平均值提供了一个无偏差的估算值，方差的变化随着数据量的增加迅速减少。我们称这个组合为lot，与通常的计算组合batch区别开。为了限制内存消耗，设置batch的容量远小于lot，batch是算法的超参数。我们对batch进行计算，然后将batch放在一个lot中，在Lot中添加噪声。

隐私计算：对于差分隐私SGD，计算训练的整体隐私成本非常重要。差分隐私的可组合性允许我们执行可累加过程：先计算每种到达训练数据的方式的隐私，然后将这些隐私累加作为训练过程。训练的每一步骤要求多个层次的梯度，然后计算累加对应于它们的所有成本。

Hyperparameter Tuning：作者识别与隐私相关的模型特征，特别是通过可以调整的超参数，以平衡隐私、准确性和性能。特别是作者观察到模型精度对训练参数，如 batchsize 和噪声水平比对神经网络的结构更敏感。

与传统做法不同的是，作者的两个超参数选择是 batchsize 和学习率。虽然凸目标函数的优化在批量最小为 1 时最容易实现，但非凸学习本质上不太稳定，有利于聚集成更大的 batches。当模型收敛到局部最优时，非私有训练的学习率通常向下调整。相反，作者保持学习率不变，因为基于差分隐私的训练需要的时间相对较少，因此无需降低学习率。

experiments：在我们的实验中，每个训练数据集都是一组图像标签对；如果其中两个集合在单个条目中不同，即如果一个图像标签对是相邻的在一组中存在，在另一组中没有。

说明：

1.Norm Clipping:如果所有参数的gradient组成的向量的L2 norm 大于max norm，那么需要根据L2 norm/max_norm 进行缩放。从而使得L2 norm 小于预设的 clip_norm。

2.Per-layer and time-dependent parameters:裁剪和噪声参数会随着训练步骤而变化。

3.Sanitizer：为了实现隐私保护，Sanitizer需要执行两种操作：（1）通过裁剪每个示例的梯度范数来限制每个单独示例的敏感性；（2）在更新网络参数之前，向批次的梯度添加噪声。