数据方面
1.14个类别+其他
数据:14个类别总共占比15%,其他占比大
问题:难以区分的类别集中在哪里?【查看混淆矩阵】【可视化】
14个类别之间or每个类别与其他
问题1:14个类别之间:
问题2:每个类别与其他
减少其他的数量
2 数据工作:
干净的数据或许能够得到更好的效果
数据的配比,与真实分布近似效果更好
领域内样本预训练
finetune截断对数据要求不是很大
数据质量恶化数据分布要求更高
清洗数据
badcase分析
监督对比学习
3.方法及论文:
SUPERVISED CONTRASTIVE LEARNING FOR PRE-TRAINED LANGUAGE MODEL FINE-TUNING
选取正样本,使其距离减小
Text Classification with Negative Supervision
选取负样本,使其距离增大
Label Confusion Learning to Enhance Text Classification Models.pdf
学习label分布
在第一把效果还行的情况下,推荐尝试以下策略:
In-Domain Further Pre-train:利用同领域下的无监督数据继续MLM预训练,这个方法我真的百试不厌,一般用一两百万的数据就能提升1-2个点
Within-Task Further Pre-Training:利用不同领域的同任务数据预先精调,选通用一些的一般也有提升
Multi-Task Fine-Tuning:利用不同任务预先精调
Layer-wise Decreasing Layer Rate:每层学到的知识都是不同的,前面几层会更通用,所以学的时候可以用小一点的学习率,防止灾难性遗忘
Features from Different layers:把不同层的输出集成起来,不过这个方法不一定有提升
长文本处理:截断或使用层次化编码