干货!小噪声对预训练语言模型微调的帮助

本文提出NoisyTune方法,通过在微调前向预训练语言模型参数添加适量噪声,有效提升模型在下游任务的性能。这种方法在GLUE和XTREME等基准数据集上展现出优势,尤其在小数据量场景下效果更为显著。NoisyTune考虑了模型参数的差异化,使用矩阵级扰动,并探索了噪声类型、强度和训练数据量的影响,有助于减轻过拟合问题。
摘要由CSDN通过智能技术生成

点击蓝字

07b88ffedd033ceb9ffd23a2e5f4fb03.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

beec0e9d452c5d1bf3231048a5e915c3.gif

准确地微调预训练语言模型对于它们在下游任务中的成功至关重要。但是,预训练语言模型可能存在过度拟合预训练任务和数据的风险,从而与目标下游任务存在鸿沟。

现有的微调方法往往难以克服这类鸿沟。在本文中,我们提出了一种非常简单有效的方法,名为 NoisyTune。我们通过在微调之前向语言模型的参数添加少量噪声来帮助更好地在下游任务中微调语言模型。

我们提出了一种矩阵级扰动方法,根据不同参数矩阵的标准差,将不同强度的均匀噪声添加到不同参数矩阵中,从而考虑模型中不同类型参数的差异化特征。

在GLUE和XTREME等基准数据集上的实验表明,NoisyTune 可以简单有效地为语言模型在下游任务中带来提升。

本期AI TIME PhD直播间,我们邀请到清华大学电子工程系博士研究生——武楚涵,为我们带来报告分享《小噪声对预训练语言模型微调的帮助》。

a4b0b150f59ab05c96427a14ac4a7db9.png

武楚涵:

清华大学电子工程系博士研究生,主要研究方向为自然语言处理、推荐系统和用户建模,曾在多个人工智能领域知名学术会议和期刊上发表论文多篇。

我们在研究之前加入了一点噪声,发现这样的改变就会对预训练模型微调带来小幅的提升。我们认为这样一个小的改动可以对语言模型的fine-tuning起到一个有效的作用。

01

  Motivation  <

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值