文本分类相关经验tricks

数据方面
1.14个类别+其他
数据:14个类别总共占比15%,其他占比大
问题:难以区分的类别集中在哪里?【查看混淆矩阵】【可视化】
14个类别之间or每个类别与其他
问题1:14个类别之间:
问题2:每个类别与其他
减少其他的数量
2 数据工作:
干净的数据或许能够得到更好的效果
数据的配比,与真实分布近似效果更好
领域内样本预训练
finetune截断对数据要求不是很大
数据质量恶化数据分布要求更高
清洗数据
badcase分析
监督对比学习

3.方法及论文:

SUPERVISED CONTRASTIVE LEARNING FOR PRE-TRAINED LANGUAGE MODEL FINE-TUNING
选取正样本,使其距离减小

Text Classification with Negative Supervision
选取负样本,使其距离增大

Label Confusion Learning to Enhance Text Classification Models.pdf
学习label分布

在第一把效果还行的情况下,推荐尝试以下策略:

In-Domain Further Pre-train:利用同领域下的无监督数据继续MLM预训练,这个方法我真的百试不厌,一般用一两百万的数据就能提升1-2个点

Within-Task Further Pre-Training:利用不同领域的同任务数据预先精调,选通用一些的一般也有提升

Multi-Task Fine-Tuning:利用不同任务预先精调

Layer-wise Decreasing Layer Rate:每层学到的知识都是不同的,前面几层会更通用,所以学的时候可以用小一点的学习率,防止灾难性遗忘

Features from Different layers:把不同层的输出集成起来,不过这个方法不一定有提升
长文本处理:截断或使用层次化编码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值