如今NLP可以说是预训练模型的时代,希望借此抛砖引玉,能多多交流探讨当前预训练模型在文本分类上的应用。
1. 任务介绍与实际应用
文本分类任务是自然语言处理(NLP)中最常见、最基础的任务之一,顾名思义,就是对给定的一个句子或一段文本使用文本分类器进行分类。根据文本分类的类别定义,可以分为二分类/多分类、多标签、层次分类,以下面的新闻分类为例:
-
二分类/多分类也即标签集中有两个或以上的标签类别,每个样本有且只有一个标签
-
多标签也即样本可能有一个或多个标签
-
层次分类是特殊的多分类或多标签任务,数据集的标签之间具有层次关系。比如下图样本的一级标签是体育,二级标签是足球,体育为足球的父标签。
文本分类广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等日常或专业领域中。
-
情感分析:情感分析是针对数据的情感倾向进行分类,可以是二分类(正向或负向)或者是多分类(按照不同的细粒度划分情感),情感分析在影音评论、商品评价、舆情分析、股民基金情感分析等都有重要的应用。
-
主题分类:主题分类也是常见的文本分类应用场景,根据内容或标题进行分类,即可以是多分类、多标签也可以是层次分类,根据实际场景需要进行标签体系构造和划分。
-
金融数据分类:金融数据繁多复杂,文本分类可以应用于金融新闻分类、股民评论情感分析、基金类型分类、金融问答分类、金融情绪分析等多种任务,有助于从大量数据挖掘有效信息。
-
医疗数据分类:目前,文本分类已有许多医疗领域的成功应用,如药物反应分类、症状和患者问题分类,健康问答分类、电子病历分类、药品文本分类等等。
-
法律数据分类:文本分类在法律领域也有许多成果的探索,如罪名分类、案情要素分类、刑期预测、法律条文分类、法律情感分析、判决预测、法律文本挖掘、合规审查等等,帮助我们从海量的法律数据抽取有效信息。
2. 文本分类中文数据集
2.1 多分类数据集
-
THUCNews新闻分类数据集: THUCTC: 一个高效的中文文本分类工具
-
百科问答分类数据集: GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
-
头条新闻标题数据集(tnews):https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset
-
复旦新闻文本数据集:工作台 - Heywhale.com
-
IFLYTEK app应用描述分类数据集:https://storage.googleapis.com/cluebenchmark/tasks/iflytek_public.zip
-
CAIL2018 刑期预测、法条预测、罪名预测 https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip
-
CAIL 2022事件检测: LEVEN
2.2 情感分类数据集
-
亚马逊商品评论情感数据集:https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb
-
财经新闻情感分类数据集: