Raki的读paper小记：How to Fine-Tune BERT for Text Classification?

最新推荐文章于 2023-08-21 20:22:22 发布

爱睡觉的Raki

最新推荐文章于 2023-08-21 20:22:22 发布

阅读量686

点赞数 1

分类专栏： NLP 读paper 文章标签： bert 人工智能深度学习自然语言处理算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Raki_J/article/details/122526367

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

82 篇文章 10 订阅

订阅专栏

咕咕咕我疯狂的咕咕咕，最近狠狠摆烂了几天，决定写一下blog！

摘要与总结

在本篇paper中，作者做了详尽的实验来研究文本分类中不同Bert的微调方法，并提供了一个通用的解决方案

最终通过实验发现：

Bert的最顶层对于文本分类更加有效
在适用层级别的学习率衰减的情况下，Bert可以很好的克服遗忘的问题
Within-task和in-domain的预训练可以显著提高表现
一个事先的多任务fine-tuning同样对单任务有效，但是效果弱于预训练
Bert能改进小数据量的任务

方法

Fine-Tuning Strategies

文本长度大于512怎么办？

head+tail方法是最优的
选择分类效果最优的层：

最后一层…（这不是肯定的吗）
在这里插入图片描述

遗忘的问题，选择合适的学习率和衰减率

2e-5 + 0.95达到了最优
在这里插入图片描述

Further Pre-training

任务内预训练（在目标任务的训练集上预训练）
领域内预训练（在同领域的目标任务的数据集上预训练）
交叉领域预训练

In-Domain and Cross-Domain Further Pre-Training
在这里插入图片描述

Multi-task Fine-Tuning

Bert共享前面的11层，最后一层用于分类，是各任务私有的
在这里插入图片描述

在这里插入图片描述

Few-Shot Learning

在这里插入图片描述

Further Pre-Training on BERT Large

在这里插入图片描述

评价

首先这篇paper的实验确实做的很足很足（废话）

提供了bert调参的方法，学到了长文本的截断最优方法，最后一层的分类效果最好（不然呢？）

其他的不知道说什么了，我感觉看起来都挺理所当然的（：

爱睡觉的Raki

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Raki的读paper小记：How to Fine-Tune BERT for Text Classification?

咕咕咕我疯狂的咕咕咕，最近狠狠摆烂了几天，决定写一下blog！摘要与总结在本篇paper中，作者做了详尽的实验来研究文本分类中不同Bert的微调方法，并提供了一个通用的解决方案最终通过实验发现：Bert的最顶层对于文本分类更加有效在适用层级别的学习率衰减的情况下，Bert可以很好的克服遗忘的问题Within-task和in-domain的预训练可以显著提高表现一个事先的多任务fine-tuning同样对单任务有效，但是效果弱于预训练Bert能改进小数据量的任务方法Fine-Tunin
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。