【斯坦福博士论文】有效的差分隐私深度学习

6dcc6f65eb729185681467fd05f4ee35.png

来源:专知
本文约2000字绍,建议阅读5分钟
本论文提出了更高效和性能更好的差分隐私深度学习训练技术。

7b61132858f5fb2f2cac0cc847bd00d4.png

深度学习模型在训练过程中使用了敏感数据,当这些模型被部署时,可能会泄露隐私。例如,使用标准算法训练的语言模型可能会重复训练数据并揭示数据贡献者的成员信息。差分隐私(Differential Privacy, DP)是一种正式的保证,可以证明其限制隐私泄露,并已成为隐私保护统计数据分析的黄金标准。然而,大多数使用DP训练深度学习模型的方法计算强度高,并且会显著降低模型的任务性能。本文提出了用于深度学习的改进差分隐私技术,这些技术更加高效且具有更好的性能。这些技术在工业界受到越来越多的关注,并已在主要科技公司的差分隐私机器学习部署中使用,保护用户隐私并提供可观的计算节省。

我们表明,当差分隐私随机梯度下降(DP-SGD)适当地应用于微调质量和规模不断提升的预训练模型时,会产生一致更好的隐私-效用折衷。与标准训练算法相比,DP-SGD占用更多内存且速度较慢。我们对DP-SGD进行了算法和实现上的修改,使其在Transformer模型上的效率与标准训练一样高。我们的实证研究挑战了普遍认为DP-SGD在优化高维目标时表现不佳的观点。为了理解和解释我们的实证结果,我们还提出了新的理论分析,基于类似大规模微调的玩具模型,显示DP-SGD对于一类无约束凸优化问题具有与维度无关的界限。

随着用户数据越来越多地被视为训练预测模型的潜在来源,机器学习中的隐私问题引起了广泛关注。针对机器学习流程的隐私攻击表明,没有正式保证的训练模型可能会泄露成员信息并重现训练数据(Shokri et al., 2017;Carlini et al., 2021)。这些漏洞不仅仅是学术兴趣,它们已经导致了社会危害,并增加了公众对机器学习应用的信任危机。例如,韩国一家公司开发的聊天机器人使用了(私有的)用户数据,重复了诸如昵称和家庭地址等敏感信息,导致了一场公关危机(Jang, 2021)。此外,隐私问题阻碍了在医疗保健等专业领域的数据驱动系统的发展,在这些领域,大量优质数据是敏感的。这些问题挑战了随着立法和政策收紧,机器学习和AI的社会效益能否得到充分实现。

https://searchworks.stanford.edu/view/in00000107638

差分隐私(Differential Privacy, DP)(Dwork et al., 2014)是一种正式的隐私定义,已成为私有数据统计分析的黄金标准。差分隐私算法在成员推断(Yeom et al., 2018;Wasserman & Zhou, 2010)和数据重建攻击(Guo et al., 2022;Hayes et al., 2023)方面被证明具有抵抗力。因此,这些算法已被用于诸如2020年美国人口普查(US Census, 2020)等高风险场景以保护用户隐私。与差分隐私在私有统计数据分析中的日益普及相比,该隐私框架在深度学习应用中的行业采用率有限。例如,尽管从2015年至2021年间有成千上万的论文发表在差分隐私深度学习主题上,Gmail智能回复(Miraglia, 2019)是该范式的唯一主要行业应用之一。滞后的原因之一是,大多数带有差分隐私保证的深度学习模型训练方法计算强度高,或在数据不丰富的情况下会显著降低模型的任务性能。

本论文提出了更高效和性能更好的差分隐私深度学习训练技术。这些改进已经在行业中得到了应用,使得差分隐私深度学习比以往任何时候都更具吸引力。例如,本文提出的一些思想已用于微软差分隐私机器学习的首次部署(Yue et al., 2023;Yu et al., 2023)。

本论文的其余部分从第二章开始,介绍了机器学习中的隐私风险和常用的差分隐私训练算法。第三章提出了一种消除差分隐私训练内存开销的技术以及改进隐私-效用折衷的方法。第四章介绍了通过扩展上一章的思想进一步消除内存-计算折衷的技术。第五章提供了我们实证观察的理论解释。我们在第1.1节中总结了这些贡献。

本论文大部分工作是在辅助公共数据的私有学习环境中进行的。然而,值得注意的是,本文提出的某些思想可以更广泛地应用。例如,第二章讨论的高性能差分隐私方法可以用于在模型训练中保护版权材料的版权(Henderson et al., 2023)。第三章讨论了有效噪声的批量大小调整,这可以应用于改进私有预训练的任务性能。最后,我们注意到,机器学习中的隐私问题是广泛而复杂的。虽然差分隐私提供了一种稳健且特定形式的保护,但不应被视为解决所有隐私问题的万能方案。例如,差分隐私无法解决数据收集过程中发生的各种隐私损害(Solove, 2005)。此外,为了使差分隐私算法在限制参与推断方面有效,需要理解应用的背景以及私有数据的生成过程(Kifer & Machanavajjhala, 2011),以便在适当的粒度上应用差分隐私保证。第六章讨论了这些考虑因素。

cf52a922d0baba827910d49dccdaae5c.png

5fe49cb599facf46ee592f59f654e557.png

35433109da9b15c4c28b7a116d295491.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

9b243b7f33615bce58332361b37b15f7.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值