BERT微调误区

最新推荐文章于 2023-09-13 17:40:20 发布

jst100

最新推荐文章于 2023-09-13 17:40:20 发布

阅读量699

点赞数 1

文章标签： bert 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jst100/article/details/122457907

版权

与CV不同的是，NLP的微调是建立在大量无标记的数据当中的，比如维基百科。因此NLP上的预训练语言模型大多采用的是自监督的方式完成训练，具体方式有LM（language mode，即预测下一个单词）和MLM（Masked language model）随机遮盖一个词，通过周围的单词完成对中性词的预测，其中，GPT采用的是LM，因此更适用于预测下一句的任务，而BERT则采用后者，11个NLP任务的SOTA。
原始的文章中对于BERT的微调的描述是有一些误区的。

原始的BERT是在大量的数据（>3B）上进行训练的，显然我们的数据集没有那么多，所以训练师的学习率（lr）不可调的太大比如e-5的量级，其次优化器最好选择完整版的Adam（原始BERT用的不是完整版的Adam，去除了对参数的偏差校正）
3轮的话其实可能对于参数的收敛是不够的，5轮较为适宜。当然更多的技巧还可以看How to fine-tune Bert for text classification这篇文章详细介绍了文本分类任务领域中BERT的使用。

参考连接：11.2NLP中的微调【斯坦福21秋季：实用机器学习中文版】
https://www.bilibili.com/video/BV1bq4y1y7tg?spm_id_from=333.999.0.0
文章How to Fine-Tune BERT for Text Classification?

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
BERT微调误区

  与CV不同的是，NLP的微调是建立在大量无标记的数据当中的，比如维基百科。因此NLP上的预训练语言模型大多采用的是自监督的方式完成训练，具体方式有LM（language mode，即预测下一个单词）和MLM（Masked language model）随机遮盖一个词，通过周围的单词完成对中性词的预测，其中，GPT采用的是LM，因此更适用于预测下一句的任务，而BERT则采用后者，11个NLP任务的SOTA。  原始的文章中对于BERT的微调的描述是有一些误区的。
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。