SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models

最新推荐文章于 2022-04-22 10:30:15 发布

南庆诗仙

最新推荐文章于 2022-04-22 10:30:15 发布

阅读量1k

点赞数 6

分类专栏： NLP 文章标签：迁移学习人工智能深度学习机器学习 nlp

本文链接：https://blog.csdn.net/weixin_43352957/article/details/105313404

版权

本文介绍了SMART方法，通过Smoothness-inducing Adversarial Regularization和Bregman Proximal Point Optimization解决预训练自然语言模型在下游任务中过拟合和遗忘问题。SMART在BERT和RoBERTa上应用，与MT-DNN结合，实现了最佳性能。

摘要由CSDN通过智能技术生成

近年来，随着Transformer的出现，NLP领域的重心逐渐向迁移学习转变，也出现了BERT、GPT2等基于非监督学习的大型模型，有很多文章关注如何对其进行有效的预训练，但如何针对下游任务进行微调也是很值得研究的问题。本文介绍一篇2019年底的文章，《SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization》。

文章针对现有微调方法中存在的在下游任务中过拟合以及遗忘预训练知识的问题，提出了两种微调方法：

SMoothness-inducing Adversarial Regularization
Bregman proximal poinT optimization

Smoothness-inducing Adversarial Regularization

这里用到的思想很简单，就是加入一个正则化项嘛，只不过这个正则化项是由对抗训练引出的。
$\min \limits_{\theta}F(\theta)=L(\theta)+\lambda_sR_s(\theta),$ 其中 $L(\theta)$ 是损失函数（对于分类模型来说通常为KL散度或者交叉熵，对于回归模型通常为均方误差）， $R_s(\theta)$ 有两种形式：

$\mathrm{[A]}: R_s(\theta)=\frac{1}{n}\sum \limits_{i=1}^n\max\limits_{\Vert x_i-\tilde{x}_i \Vert_p\leq \epsilon}l_s(f(x_i;\theta),f(\tilde{x}_i;\theta))$

最低0.47元/天解锁文章

南庆诗仙

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models

近年来，随着Transformer的出现，NLP领域的重心逐渐向迁移学习转变，也出现了BERT、GPT2等基于非监督学习的大型模型，有很多文章关注如何对其进行有效的预训练，但如何针对下游任务进行微调也是很值得研究的问题。本文介绍一篇2019年底的文章，《SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language ...
复制链接

扫一扫

专栏目录