BERT微调误区

  与CV不同的是,NLP的微调是建立在大量无标记的数据当中的,比如维基百科。因此NLP上的预训练语言模型大多采用的是自监督的方式完成训练,具体方式有LM(language mode,即预测下一个单词)和MLM(Masked language model)随机遮盖一个词,通过周围的单词完成对中性词的预测,其中,GPT采用的是LM,因此更适用于预测下一句的任务,而BERT则采用后者,11个NLP任务的SOTA。
  原始的文章中对于BERT的微调的描述是有一些误区的。

  1. 原始的BERT是在大量的数据(>3B)上进行训练的,显然我们的数据集没有那么多,所以训练师的学习率(lr)不可调的太大比如e-5的量级,其次优化器最好选择完整版的Adam(原始BERT用的不是完整版的Adam,去除了对参数的偏差校正)
  2. 3轮的话其实可能对于参数的收敛是不够的,5轮较为适宜。 当然更多的技巧还可以看How to fine-tune Bert for text classification这篇文章详细介绍了文本分类任务领域中BERT的使用。

参考连接:11.2NLP中的微调【斯坦福21秋季:实用机器学习中文版】
https://www.bilibili.com/video/BV1bq4y1y7tg?spm_id_from=333.999.0.0
文章How to Fine-Tune BERT for Text Classification?

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值