小样本如何更好的在BERT上fine-tune
Revisiting Few-sample BERT Fine-tuning阅读笔记,论文地址:https://arxiv.org/abs/2006.05987
1 摘要
这篇论文主要探讨了如何更有效地使用BERT在小样本数据集上进行fine-tune。虽然当前预训练模型在各项NLP任务中都取得了很好的效果,但是当大规模参数的预训练模型应用在小样本数据集上,其fine-tune的过程仍然是不稳定的。比如在相同的fine-tune过程中使用不同的初始化参数会导致结果有很大的偏差(之前参加预训练模型泛化能力挑战赛的时候,相同的epoch,每次的结果都会不一样),这会使得研究者们反复的去实验,不仅会浪费时间和资源而且还给实验对比带来挑战。
因此,论文针对在小样本数据集上的fine-tune的不稳定性进行分析(Fine-tune Instability),已有的方案:
-
Fine-tuning pretrained language models:Weight initializations,data orders, and early stopping
-
Effective regularization to fine-tune large-scale pretrained language models
-
Sentence encoder on stilts:Supplementary training on intermediate labeled-data tasks
该论文主要聚焦三个方面的优化工作:
-
优化算