How to Fine-Tune BERT for Text Classification 论文笔记

sigmeta

于 2019-11-13 23:35:07 发布

阅读量3k

点赞数

分类专栏： nlp 论文笔记文章标签： BERT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sigmeta/article/details/103059647

版权

How to Fine-Tune BERT for Text Classification 论文笔记

论文地址：How to Fine-Tune BERT for Text Classification？

BERT在NLP任务中效果十分优秀，这篇文章对于BERT在文本分类的应用上做了非常丰富的实验，介绍了一些调参以及改进的经验，进一步挖掘BERT的潜力。

实验主要在8个被广泛研究的数据集上进行，在BERT-base模型上做了验证。

文章的主要结论如下：

1.微调（fin-tune）策略

对于长文本，尝试了（1）取头部510 tokens，（2）尾部510 tokens，（3）头部128 tokens+尾部382 tokens，（4）分片并进行最大池化、平均池化、attention，发现方法（3）最好。因为文章的关键信息一般在开头和结尾。
分层训练，上层对文本分类更加重要。
灾难性遗忘：在下游finetune可能会遗忘预训练的知识。需要设置较小的学习率，如2e-5.
分层衰减学习率（Layer-wise Decreasing Layer Rate），对下层设置更小的学习率可以得到更高的准确率，在lr=2e-

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
How to Fine-Tune BERT for Text Classification 论文笔记

How to Fine-Tune BERT for Text Classification 论文笔记论文地址：How to Fine-Tune BERT for Text Classification？BERT在NLP任务中效果十分优秀，这篇文章对于BERT在文本分类的应用上做了非常丰富的实验，介绍了一些调参以及改进的经验，进一步挖掘BERT的潜力。实验主要在8个被广泛研究的数据集上进行，在...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。