文本分类算法综述

最新推荐文章于 2024-01-21 03:43:53 发布

一只NLP的萌新er

最新推荐文章于 2024-01-21 03:43:53 发布

阅读量2k

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40377498/article/details/105481311

版权

本文是对文本分类算法的综述，包括特征提取、预处理、维度降低、分类方法和评估。特征提取涉及TF-IDF、词向量等；预处理涵盖分词、去停用词、词形还原等；分类方法包括Rocchio、Boosting、SVM、KNN等；评估方法如FβScore、MCC、ROC、AUC。

摘要由CSDN通过智能技术生成

最近在阅读Kowsari, Meimandi J , Heidarysafa等人的《Text Classification Algorithms: A Survey》一文，在此半翻译半总结地总结一下笔记。

1.序章

文章概述了文本特征提取、降维方法、现有的算法与技术（模型）、评估方法。也简述了每种技术的局限性以及其在实际问题中的应用。
大多数文本分类和文档分类的过程都可以分为四个阶段：特征提取、维度降低、类别选择、评估。序章简述了文本分类系统的组成部分：首先是特征提取，再者是维度降低（可选），其次是分类算法选择（最重要的），最后是评估方法（两部分：预测测试数据集+评估模型）。
初始输入由一些原始的文本数据集组成。通常来说，文本数据集包含了文档中的文本序列，每个序列包含N个数据点（文本），数据点含有S个句子，而每个句子有包含由lw个字符组成的Ws个单词。每个数据点都由一组K个不同的离散值来标记。（1 2 ···）。

1.1.特征提取

文本和文档都是非结构化的数据集，但是在使用分类器中的数学模型时，这些非结构化的文本序列必须修改为结构化的特征空间，并且数据集需要进行数据清洗来去除不必要的字符和单词，即文本预处理（会在Section 2中进行讲解）。特征提取的常用技术为：TF-IDF、TF、词向量Word2Vec、全局词向量GloVe（以及之后的Fastext、ELMO、BERT、XLNET等）。

1.2.维度降低

一个常见的问题，由于文本或文档数据集经常包含许多独一无二的单词，数据预处理过程可能会因为长时间运行和内存复杂性而延迟。对这个问题常见的解决方法是开发简单的算法，然而简单的算法并不能适用于所有的数据集（情况），所以研究人员提出使用维度降低的方法。常用的降维操作：主成分分析（PCA）、线性判别分析（LDA）、非负矩阵分解（NMF）。对于无监督特征提取中降维的新技术：随机投影、自编码、T分布随机邻接嵌入（T-SNE）

1.3.分类器技术

在Section4简述了常见的文本分类方法：传统的文本分类器-Rocchio分类、集成学习技术-Boosting and Bagging、逻辑回归（LR）、朴素贝叶斯分类器（NBC）；使用了非参数技术的K近邻分类算法（KNN），支持向量机（SVM）；基于树的分类器，比如：决策树和随机森林，也常用于文档分类中；近年来，图分类也被认为是一种分类任务，比如：条件随机域（CRFs）；目前，深度学习技术也用于分类任务中。