【NLP从零入门】预训练时代下,深度学习模型的文本分类算法(超多干货,小白友好,内附实践代码和文本分类常见中文数据集)

如今NLP可以说是预训练模型的时代,希望借此抛砖引玉,能多多交流探讨当前预训练模型在文本分类上的应用。

1. 任务介绍与实际应用

文本分类任务是自然语言处理(NLP)中最常见、最基础的任务之一,顾名思义,就是对给定的一个句子或一段文本使用文本分类器进行分类。根据文本分类的类别定义,可以分为二分类/多分类、多标签、层次分类,以下面的新闻分类为例:

  • 二分类/多分类也即标签集中有两个或以上的标签类别,每个样本有且只有一个标签

  • 多标签也即样本可能有一个或多个标签

  • 层次分类是特殊的多分类或多标签任务,数据集的标签之间具有层次关系。比如下图样本的一级标签是体育,二级标签是足球,体育为足球的父标签。

文本分类广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等日常或专业领域中。

  • 情感分析:情感分析是针对数据的情感倾向进行分类,可以是二分类(正向或负向)或者是多分类(按照不同的细粒度划分情感),情感分析在影音评论、商品评价、舆情分析、股民基金情感分析等都有重要的应用。

  • 主题分类:主题分类也是常见的文本分类应用场景,根据内容或标题进行分类,即可以是多分类、多标签也可以是层次分类,根据实际场景需要进行标签体系构造和划分。

  • 金融数据分类:金融数据繁多复杂,文本分类可以应用于金融新闻分类、股民评论情感分析、基金类型分类、金融问答分类、金融情绪分析等多种任务,有助于从大量数据挖掘有效信息。

  • 医疗数据分类:目前,文本分类已有许多医疗领域的成功应用,如药物反应分类、症状和患者问题分类,健康问答分类、电子病历分类、药品文本分类等等。

  • 法律数据分类:文本分类在法律领域也有许多成果的探索,如罪名分类、案情要素分类、刑期预测、法律条文分类、法律情感分析、判决预测、法律文本挖掘、合规审查等等,帮助我们从海量的法律数据抽取有效信息。

2. 文本分类中文数据集

2.1 多分类数据集

2.2 情感分类数据集

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值