论文阅读:Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stoppin

       当前预训练模型大都分为两个训练阶段:预训练和微调;但是在微调时,随机种子的影响也是非常大;这篇文章就是讨论的微调时,受随机种子影响的参数初始化和数据训练顺序,以及提前终止训练对最终结果的影响;

实验证明,参数初始化和数据训练顺序对结果影响巨大,甚至比得上最先进的模型;作者通过在这四个数据集上进行大量实验发现,使用某些性能最好的随机种子,同时在四个数据集上都能达到接近best acc的性能;另外作者通过大量实验发现在模型训练初期,如果发现模型的性能比经验的性能差,那么这个模型可以提前终止,节省训练开支;

         

 

paper note: 

https://lonepatient.top/2020/02/27/Fine-Tuning_Pretrained_Language_Models-Weight_Initializations_Data%20Orders%20.html

这篇文章通过大量的实验,研究在预训练模型的微调阶段,引起最后结果差异的很大因素是由于随机种子引发导致的finetune层参数初始化差异和训练数据顺序的差异;以后进行finetune时应该都会多进行几次随机种子的尝试了,作者调参后差距真是提升太明显了;同时对训练模型时,初期的测试也应该留意结果;因为确实初期模型的结果性能不好大概率训练结束也不会好到哪里去;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值