LARGE LANGUAGE MODELS CAN BESTRONG DIFFERENTIALLY PRIVATE LEARNERS

摘要:差分私有(DP)学习在构建文本的大型深度学习模型方面取得了有限的成功,而将差分私有随机梯度下降(DP- sgd)应用于NLP任务的直接尝试导致了较大的性能下降和高计算开销。我们表明,这种性能下降可以通过(1)使用大型预训练语言模型来缓解;(2)适合DP优化的非标准超参数;(3)与预训练程序相一致的微调目标。为了解决在large Transformers上运行DP-SGD的计算挑战,我们提出了一种内存节省技术,该技术允许在DP-SGD中运行裁剪,而无需实例化模型中任何线性层的每个示例梯度。这种技术能够以几乎与非私有训练相同的内存成本。与DP优化在学习高维模型时失败的传统智慧相反(由于噪声随维缩放),经验结果表明,使用预先训练的语言模型的私人学习往往不会遭受维度依赖的性能下降。

1 introduction

当DP学习应用于大型语言模型时,通常很难产生有用的模型,导致模型要么具有没有意义的隐私保证,要么性能远低于非私有基线。核心问题是:注入的噪声必须随着参数的数量缩放,导致大型语言模型的噪声水平较大。

我们解决了构建语句分类和语言生成任务的性能DP语言模型的问题,只需使用数万到数十万个示例。为了实现这一目标,我们重新检查基线DP优化算法的性能,以微调大型语言模型,并研究在给定固定隐私预算的情况下,超参数、训练目标和预训练模型的选择如何影响性能。与主流看法相反,我们的实证结果表明,具有数亿个参数的大型预训练模型可以有效地和高效地微调,以产生在适度隐私泄漏下的高性能模型。

1)我们表明,在适当的超参数和下游任务目标下ÿ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值