【NLP从零入门】预训练时代下，深度学习模型的文本分类算法（超多干货，小白友好，内附实践代码和文本分类常见中文数据集）

不要辣椒不要酱

已于 2022-09-15 15:51:24 修改

阅读量782

点赞数 2

文章标签：深度学习自然语言处理分类机器学习人工智能

于 2022-09-15 11:31:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lugimz/article/details/126867197

版权

如今NLP可以说是预训练模型的时代，希望借此抛砖引玉，能多多交流探讨当前预训练模型在文本分类上的应用。

1. 任务介绍与实际应用

文本分类任务是自然语言处理（NLP）中最常见、最基础的任务之一，顾名思义，就是对给定的一个句子或一段文本使用文本分类器进行分类。根据文本分类的类别定义，可以分为二分类/多分类、多标签、层次分类，以下面的新闻分类为例：

二分类/多分类也即标签集中有两个或以上的标签类别，每个样本有且只有一个标签
多标签也即样本可能有一个或多个标签
层次分类是特殊的多分类或多标签任务，数据集的标签之间具有层次关系。比如下图样本的一级标签是体育，二级标签是足球，体育为足球的父标签。

文本分类广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等日常或专业领域中。

情感分析：情感分析是针对数据的情感倾向进行分类，可以是二分类（正向或负向）或者是多分类（按照不同的细粒度划分情感），情感分析在影音评论、商品评价、舆情分析、股民基金情感分析等都有重要的应用。
主题分类：主题分类也是常见的文本分类应用场景，根据内容或标题进行分类，即可以是多分类、多标签也可以是层次分类，根据实际场景需要进行标签体系构造和划分。
金融数据分类：金融数据繁多复杂，文本分类可以应用于金融新闻分类、股民评论情感分析、基金类型分类、金融问答分类、金融情绪分析等多种任务，有助于从大量数据挖掘有效信息。
医疗数据分类：目前，文本分类已有许多医疗领域的成功应用，如药物反应分类、症状和患者问题分类，健康问答分类、电子病历分类、药品文本分类等等。
法律数据分类：文本分类在法律领域也有许多成果的探索，如罪名分类、案情要素分类、刑期预测、法律条文分类、法律情感分析、判决预测、法律文本挖掘、合规审查等等，帮助我们从海量的法律数据抽取有效信息。

2. 文本分类中文数据集

2.1 多分类数据集

THUCNews新闻分类数据集： THUCTC: 一个高效的中文文本分类工具
百科问答分类数据集： GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
头条新闻标题数据集（tnews）：https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset
复旦新闻文本数据集：工作台 - Heywhale.com
IFLYTEK app应用描述分类数据集：https://storage.googleapis.com/cluebenchmark/tasks/iflytek_public.zip
CAIL2018 刑期预测、法条预测、罪名预测 https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip
CAIL 2022事件检测： LEVEN

2.2 情感分类数据集

亚马逊商品评论情感数据集：https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb
财经新闻情感分类数据集：

最低0.47元/天解锁文章

不要辣椒不要酱

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【NLP从零入门】预训练时代下，深度学习模型的文本分类算法（超多干货，小白友好，内附实践代码和文本分类常见中文数据集）

预训练时代下，深度学习模型的文本分类算法（超多干货，小白友好，内附实践代码和文本分类常见中文数据集）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。