摘要:差分私有(DP)学习在构建文本的大型深度学习模型方面取得了有限的成功,而将差分私有随机梯度下降(DP- sgd)应用于NLP任务的直接尝试导致了较大的性能下降和高计算开销。我们表明,这种性能下降可以通过(1)使用大型预训练语言模型来缓解;(2)适合DP优化的非标准超参数;(3)与预训练程序相一致的微调目标。为了解决在large Transformers上运行DP-SGD的计算挑战,我们提出了一种内存节省技术,该技术允许在DP-SGD中运行裁剪,而无需实例化模型中任何线性层的每个示例梯度。这种技术能够以几乎与非私有训练相同的内存成本。与DP优化在学习高维模型时失败的传统智慧相反(由于噪声随维缩放),经验结果表明,使用预先训练的语言模型的私人学习往往不会遭受维度依赖的性能下降。
1 introduction
当DP学习应用于大型语言模型时,通常很难产生有用的模型,导致模型要么具有没有意义的隐私保证,要么性能远低于非私有基线。核心问题是:注入的噪声必须随着参数的数量缩放,导致大型语言模型的噪声水平较大。
我们解决了构建语句分类和语言生成任务的性能DP语言模型的问题,只需使用数万到数十万个示例。为了实现这一目标,我们重新检查基线DP优化算法的性能,以微调大型语言模型,并研究在给定固定隐私预算的情况下,超参数、训练目标和预训练模型的选择如何影响性能。与主流看法相反,我们的实证结果表明,具有数亿个参数的大型预训练模型可以有效地和高效地微调,以产生在适度隐私泄漏下的高性能模型。
1)我们表明,在适当的超参数和下游任务目标下ÿ