NLP标签不均衡的文本多分类

「已注销」

已于 2022-08-11 23:09:40 修改

阅读量764

点赞数 1

分类专栏： NLP 文章标签：自然语言处理分类机器学习

于 2022-08-10 21:22:04 首次发布

本文链接：https://blog.csdn.net/renyongzhe/article/details/126207763

版权

简介

自然语言处理中，文本多分类是最常见的需求之一。如果标注数据量大且样本均衡，任选一个bert模型都能达到非常好的准确度。但实际应用中往往面临的是数据量小，标签不均衡，标注错误等各种预想之外但又普遍存在的问题。如何根据实际情况解决问题，获得不错的效果才是我们需要研究的。

问题

现有一个多分类问题，供讨论研究可行的方法。一批标注数据有100个标签，标签为文本。标签不均衡问题非常严重，有的标签样本量数千条数据，有的标签样本量从个位数到数十个。如何使用现有数据训练模型，用于后续数据的标签预测。由于样本较少的类别本身很难达到较高的准确性，以下方法测试仅说明如何在给定数据条件下，找到一个相对较优的方法。示例数据如下：

句子	类别
This is the first test.	label1
The description of ach sentence describe belong different subject.	label2
…	…

方法

数据预处理

文本分类问题数据简单，统计标签类别和数目，根据实际需求尝试合并样本过于少的标签，清洗列表进行标准化。

1. 多分类模型

直接使用 simpletransformers中的多分类模型，标签数目设置为多分类的标签数目。以下为官方示例代码。

from simpletransformers.classification import ClassificationModel, ClassificationArgs
# 将标签类别 用数字标签代替
train_data = [
    ["Aragorn was the heir of Isildur", 1],
    ["Frodo was the heir of Isildur", 0],
    ["Pippin is stronger than Merry",

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
NLP标签不均衡的文本多分类

自然语言处理中，文本多分类是最常见的需求之一。如果标注数据量大且样本均衡，任选一个bert模型都能达到非常好的准确度。但实际应用中往往面临的是数据量小，标签不均衡，标注错误等各种预想之外但又普遍存在的问题。如何根据实际情况解决问题，获得不错的效果才是我们需要研究的。的详细用法及更多功能可参考官方文档，提供了简洁的使用方法。则提供了更灵活的与语义，文本搜索相关的API，可根据类型，选择对用的损失函数等。损失函数的选择对模型的准确度影响非常大。.........
复制链接

扫一扫