Differentially Private Model Publishing for Deep Learning
2019IEEE Symposium on Security and Privacy
Abstract
基于神经网络的深度学习技术已经在人工智能领域取得了巨大的成功。大规模的训练数据集是其成功的关键因素之一。然而,当训练数据集众包自个体并包含敏感信息时,模型参数可能会对隐私信息进行编码,并承担隐私泄露的风险。最近共享和发布预培训模型的趋势进一步加剧了这种隐私风险。为了解决这一问题,我们提出了一种训练神经网络的差分私有方法。我们的方法包括一些新的技术,以优化隐私损失和模型准确性。我们采用了一种称为集中微分隐私(CDP)的微分隐私泛化方法,对两种不同的数据批处理方法进行了正式的和细化的隐私损失分析。我们在训练过程中实现了一个动态的隐私预算分配器,以提高模型的准确性。大量的实验表明,在给定的隐私预算下,我们的方法有效地提高了隐私损失核算、训练效率和模型质量。
Introduction
近年来,基于人工神经网络的深度学习技术极大地提升了人工智能在语音识别、图像分类、自然语言处理和游戏等领域的技术水平。它的成功依赖于三个方面的进步:高性能计算、大规模数据集和越来越多的开源深度学习框架,如TensorFlow、Caffe和Torch。深度学习中的隐私问题。然而,最近关于成员攻击和模型反转攻击的研究从多个维度暴露了潜在的隐私风险。首先,通过众包平台从个人收集大型数据集,其中包含用户的位置、图像、医疗和财务数据等私人信息。用