干货！小噪声对预训练语言模型微调的帮助

AITIME论道

于 2022-06-13 18:23:57 发布

阅读量741

点赞数

文章标签：人工智能机器学习深度学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AITIME_HY/article/details/125270662

版权

本文提出NoisyTune方法，通过在微调前向预训练语言模型参数添加适量噪声，有效提升模型在下游任务的性能。这种方法在GLUE和XTREME等基准数据集上展现出优势，尤其在小数据量场景下效果更为显著。NoisyTune考虑了模型参数的差异化，使用矩阵级扰动，并探索了噪声类型、强度和训练数据量的影响，有助于减轻过拟合问题。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

准确地微调预训练语言模型对于它们在下游任务中的成功至关重要。但是，预训练语言模型可能存在过度拟合预训练任务和数据的风险，从而与目标下游任务存在鸿沟。

现有的微调方法往往难以克服这类鸿沟。在本文中，我们提出了一种非常简单有效的方法，名为 NoisyTune。我们通过在微调之前向语言模型的参数添加少量噪声来帮助更好地在下游任务中微调语言模型。

我们提出了一种矩阵级扰动方法，根据不同参数矩阵的标准差，将不同强度的均匀噪声添加到不同参数矩阵中，从而考虑模型中不同类型参数的差异化特征。

在GLUE和XTREME等基准数据集上的实验表明，NoisyTune 可以简单有效地为语言模型在下游任务中带来提升。

本期AI TIME PhD直播间，我们邀请到清华大学电子工程系博士研究生——武楚涵，为我们带来报告分享《小噪声对预训练语言模型微调的帮助》。

武楚涵：

清华大学电子工程系博士研究生，主要研究方向为自然语言处理、推荐系统和用户建模，曾在多个人工智能领域知名学术会议和期刊上发表论文多篇。

我们在研究之前加入了一点噪声，发现这样的改变就会对预训练模型微调带来小幅的提升。我们认为这样一个小的改动可以对语言模型的fine-tuning起到一个有效的作用。

01

Motivation <

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。