论文阅读：Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stoppin

最新推荐文章于 2024-06-22 15:58:20 发布

咕噜咕噜day

最新推荐文章于 2024-06-22 15:58:20 发布

阅读量607

点赞数

分类专栏： nlg_paper 文章标签：预训练模型fintue调参

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36533552/article/details/107185856

版权

nlg_paper 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

当前预训练模型大都分为两个训练阶段：预训练和微调；但是在微调时，随机种子的影响也是非常大；这篇文章就是讨论的微调时，受随机种子影响的参数初始化和数据训练顺序，以及提前终止训练对最终结果的影响；

实验证明，参数初始化和数据训练顺序对结果影响巨大，甚至比得上最先进的模型；作者通过在这四个数据集上进行大量实验发现，使用某些性能最好的随机种子，同时在四个数据集上都能达到接近best acc的性能；另外作者通过大量实验发现在模型训练初期，如果发现模型的性能比经验的性能差，那么这个模型可以提前终止，节省训练开支；

paper note:

https://lonepatient.top/2020/02/27/Fine-Tuning_Pretrained_Language_Models-Weight_Initializations_Data%20Orders%20.html

这篇文章通过大量的实验，研究在预训练模型的微调阶段，引起最后结果差异的很大因素是由于随机种子引发导致的finetune层参数初始化差异和训练数据顺序的差异；以后进行finetune时应该都会多进行几次随机种子的尝试了，作者调参后差距真是提升太明显了；同时对训练模型时，初期的测试也应该留意结果；因为确实初期模型的结果性能不好大概率训练结束也不会好到哪里去；

咕噜咕噜day

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stoppin

当前预训练模型大都分为两个训练阶段：预训练和微调；但是在微调时，随机种子的影响也是非常大；这篇文章就是讨论的微调时，受随机种子影响的参数初始化和数据训练顺序，以及提前终止训练对最终结果的影响；实验证明，参数初始化和数据训练顺序对结果影响巨大，甚至比得上最先进的模型；作者通过在这四个数据集上进行大量实验发现，使用某些性能最好的随机种子，同时在四个数据集上都能达到接近best acc的性能；另外作者通过大量实验发现在模型训练初期，如果发现模型的性能比经验的性能差，那么这个模型可以提前终止，节省...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。