咕咕咕我疯狂的咕咕咕,最近狠狠摆烂了几天,决定写一下blog!
摘要与总结
在本篇paper中,作者做了详尽的实验来研究文本分类中不同Bert的微调方法,并提供了一个通用的解决方案
最终通过实验发现:
- Bert的最顶层对于文本分类更加有效
- 在适用层级别的学习率衰减的情况下,Bert可以很好的克服遗忘的问题
- Within-task和in-domain的预训练可以显著提高表现
- 一个事先的多任务fine-tuning同样对单任务有效,但是效果弱于预训练
- Bert能改进小数据量的任务
方法
Fine-Tuning Strategies
-
文本长度大于512怎么办?
head+tail方法是最优的
-
选择分类效果最优的层:
最后一层…(这不是肯定的吗)
- 遗忘的问题,选择合适的学习率和衰减率
2e-5 + 0.95达到了最优
Further Pre-training
- 任务内预训练(在目标任务的训练集上预训练)
- 领域内预训练(在同领域的目标任务的数据集上预训练)
- 交叉领域预训练
In-Domain and Cross-Domain Further Pre-Training
Multi-task Fine-Tuning
Bert共享前面的11层,最后一层用于分类,是各任务私有的
Few-Shot Learning
Further Pre-Training on BERT Large
评价
首先这篇paper的实验确实做的很足很足(废话)
提供了bert调参的方法,学到了长文本的截断最优方法,最后一层的分类效果最好(不然呢?)
其他的不知道说什么了,我感觉看起来都挺理所当然的(: