文本分类相关经验tricks

zhurui_xiaozhuzaizai

已于 2022-12-08 17:25:32 修改

阅读量294

点赞数

分类专栏：自然语言处理文章标签：分类人工智能

于 2021-01-28 20:21:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36378508/article/details/113357616

版权

自然语言处理专栏收录该内容

84 篇文章 30 订阅

订阅专栏

数据方面
1.14个类别+其他
数据：14个类别总共占比15%，其他占比大
问题：难以区分的类别集中在哪里？【查看混淆矩阵】【可视化】
14个类别之间or每个类别与其他
问题1：14个类别之间：
问题2：每个类别与其他
减少其他的数量
2 数据工作：
干净的数据或许能够得到更好的效果
数据的配比，与真实分布近似效果更好
领域内样本预训练
finetune截断对数据要求不是很大
数据质量恶化数据分布要求更高
清洗数据
badcase分析
监督对比学习

3.方法及论文：

SUPERVISED CONTRASTIVE LEARNING FOR PRE-TRAINED LANGUAGE MODEL FINE-TUNING
选取正样本，使其距离减小

Text Classification with Negative Supervision
选取负样本，使其距离增大

Label Confusion Learning to Enhance Text Classification Models.pdf
学习label分布

在第一把效果还行的情况下，推荐尝试以下策略：

In-Domain Further Pre-train：利用同领域下的无监督数据继续MLM预训练，这个方法我真的百试不厌，一般用一两百万的数据就能提升1-2个点

Within-Task Further Pre-Training：利用不同领域的同任务数据预先精调，选通用一些的一般也有提升

Multi-Task Fine-Tuning：利用不同任务预先精调

Layer-wise Decreasing Layer Rate：每层学到的知识都是不同的，前面几层会更通用，所以学的时候可以用小一点的学习率，防止灾难性遗忘

Features from Different layers：把不同层的输出集成起来，不过这个方法不一定有提升
长文本处理：截断或使用层次化编码

zhurui_xiaozhuzaizai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。