点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
准确地微调预训练语言模型对于它们在下游任务中的成功至关重要。但是,预训练语言模型可能存在过度拟合预训练任务和数据的风险,从而与目标下游任务存在鸿沟。
现有的微调方法往往难以克服这类鸿沟。在本文中,我们提出了一种非常简单有效的方法,名为 NoisyTune。我们通过在微调之前向语言模型的参数添加少量噪声来帮助更好地在下游任务中微调语言模型。
我们提出了一种矩阵级扰动方法,根据不同参数矩阵的标准差,将不同强度的均匀噪声添加到不同参数矩阵中,从而考虑模型中不同类型参数的差异化特征。
在GLUE和XTREME等基准数据集上的实验表明,NoisyTune 可以简单有效地为语言模型在下游任务中带来提升。
本期AI TIME PhD直播间,我们邀请到清华大学电子工程系博士研究生——武楚涵,为我们带来报告分享《小噪声对预训练语言模型微调的帮助》。
武楚涵:
清华大学电子工程系博士研究生,主要研究方向为自然语言处理、推荐系统和用户建模,曾在多个人工智能领域知名学术会议和期刊上发表论文多篇。
我们在研究之前加入了一点噪声,发现这样的改变就会对预训练模型微调带来小幅的提升。我们认为这样一个小的改动可以对语言模型的fine-tuning起到一个有效的作用。
01
Motivation <