文本分类算法综述

最近在阅读Kowsari, Meimandi J , Heidarysafa等人的 《Text Classification Algorithms: A Survey》一文,在此半翻译半总结地总结一下笔记。

1.序章

文章概述了文本特征提取、降维方法、现有的算法与技术(模型)、评估方法。也简述了每种技术的局限性以及其在实际问题中的应用。
大多数文本分类和文档分类的过程都可以分为四个阶段:特征提取、维度降低、类别选择、评估。序章简述了文本分类系统的组成部分:首先是特征提取,再者是维度降低(可选),其次是分类算法选择(最重要的),最后是评估方法(两部分:预测测试数据集+评估模型)。
初始输入由一些原始的文本数据集组成。通常来说,文本数据集包含了文档中的文本序列,每个序列包含N个数据点(文本),数据点含有S个句子,而每个句子有包含由lw个字符组成的Ws个单词。每个数据点都由一组K个不同的离散值来标记。(1 2 ···)。

1.1.特征提取

文本和文档都是非结构化的数据集,但是在使用分类器中的数学模型时,这些非结构化的文本序列必须修改为结构化的特征空间,并且数据集需要进行数据清洗来去除不必要的字符和单词,即文本预处理(会在Section 2中进行讲解)。特征提取的常用技术为:TF-IDF、TF、词向量Word2Vec、全局词向量GloVe(以及之后的Fastext、ELMO、BERT、XLNET等)。

1.2.维度降低

一个常见的问题,由于文本或文档数据集经常包含许多独一无二的单词,数据预处理过程可能会因为长时间运行和内存复杂性而延迟。对这个问题常见的解决方法是开发简单的算法,然而简单的算法并不能适用于所有的数据集(情况),所以研究人员提出使用维度降低的方法。常用的降维操作:主成分分析(PCA)、线性判别分析(LDA)、非负矩阵分解(NMF)。对于无监督特征提取中降维的新技术:随机投影、自编码、T分布随机邻接嵌入(T-SNE)

1.3.分类器技术

在Section4简述了常见的文本分类方法:传统的文本分类器-Rocchio分类、集成学习技术-Boosting and Bagging、逻辑回归(LR)、朴素贝叶斯分类器(NBC);使用了非参数技术的K近邻分类算法(KNN),支持向量机(SVM);基于树的分类器,比如:决策树和随机森林,也常用于文档分类中;近年来,图分类也被认为是一种分类任务,比如:条件随机域(CRFs);目前,深度学习技术也用于分类任务中。

1.4.评估

在Section 5我们简述了评估分类算法的方法:FβScore、马修斯相关系数 (MCC)、ROC、AUC。

2.文本预处理

文本预处理。本节介绍了文本数据清洗的方法。文本数据清洗后,可以消除隐含的噪声,允许信息特征化。讨论了两种常见的文本特征提取的方法:加权词、词嵌入。

  • 0
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值