原文链接:https://arxiv.org/pdf/1607.00133.pdf%20
一、文章概述
随着基于神经网络的机器学习技术的广泛应用,模型的训练越来越需要大规模的训练数据,这些数据可能是众包(crowdsourced)的并且包含敏感信息。为了使模型在不暴露数据集隐私信息的前提下进行训练,本论文提出了基于差分隐私的隐私保护训练算法,并对隐私损失(privacy costs)进行了定量分析。实验表明,所提算法能够在满足低隐私预算(privacy budget)、可控的软件复杂度成本、训练效率和模型性能情况下,训练非凸目标函数(non-convex objectives)的深度神经网络(参数量1w~1kw)。
二、主要贡献
-
通过追踪隐私损失的详细信息(更高的矩(moments)),来获得更加严格的总体隐私损失估计。
-
引入了一系列新技术来提高差分隐私训练计算效率,包括:
- 高效计算单个训练样本的梯度
- 将任务细分为较小的batch来减少内存占用
- 在输入层采用差分隐私主元投影(principal projection)
-
基于MNIST和CIFAR-10数据集进行实验,验证了所提方法能够在保证较低的软件复杂度成本、较高的训练效率和模型性能的前提下有效保护深度神经网络的数据隐私。