自然语言处理学习笔记十一（文本分类）

置顶犀利哗啦760596103

于 2021-11-12 15:58:53 发布

阅读量4k

点赞数 1

文章标签：自然语言处理分类机器学习

本文链接：https://blog.csdn.net/liuhuabing760596103/article/details/121287473

版权

在文本聚类中，体验了无须标注语料库的便利性，但是无监督学习总归无法按照我们的意志预测出文档的类别，限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中，于是有了文本分类的产生。

一、文本分类的概念

文本分类，又称为文档分类，指的是将一个文档归类到一个或者多个类别中的自然语言处理任务。文本的类别称为标签，如果一个文档属于多个类别，此时此类问题称为多标签分类。

文本分类是一个典型的监督学习任务，其流程离不开人工指导：人工标注文档的类别，利用语料训练模型，利用模型预测文档的类别。

二、文本分类语料库

文本分类语料库的标注过程相对简单，只需收集一些文档，人工指定每篇文档的类别即可。另外，许多新闻网站的栏目是由编辑人工整理的，如果栏目设置符合要求，也可以用爬虫爬取下来作为语料库使用。

三、文本分类的特征提取

在机器学习中，我们需要对具体对象提取出有助于分类的特征，然后交给某个分类器进行分类。这些特征数值化后为一个定长的向量，用来作为分类器的输入。在训练时，分类器根据数据集中的数据点学习决策边界。在预测师，分类器根据输入的数据点落在决策边界的位置来决定类别。

3.1 分词

文本分类并不一定需要进行分词，将文本中相邻的两个字符构成的所有二元语法作为“词”，反而能取得更好的分类准确率。

3.2 卡方特征选择

对于文本分类而言，其特征提取过程与文本聚类相同，特征提取的结果都为词袋模型下的稀疏向量（词袋向量）。唯一不同的是，许多常用单词对分类决策的帮助不大，比如 ‘的’、标点符号等，也有可能一些单词在所有类别的文档中均匀出现。为了消除这些单词的影响，一方面可以用停用词表，一方面可以用卡方非参数检验来过滤掉与类别相关程度不高的词语。计算出每个特征的卡方值后，确定哪些特征有用，然后就可以将文档转化为向量了。

3.3 词袋向量

用特征的id作为下标，频次作为数值，假设一共有n个特征，一篇文档就可以转化为n维的词袋向量。

在不尽兴特征选择的前提下，如果以词语作为特征，则n大约在10万量级；如果以字符二元语法作为特征，则n大约在50万量级。数十万维的向量运算开销不容小觑，一般利用卡方特征选择，可以将特征数量减小到10%-20%左右。

四、朴素贝叶斯分类器

在各式各样的分类器中，朴素贝叶斯法算是最简单常用的一种生成式模式。朴素贝叶斯法基于贝叶斯定理将联合概率转化为条件概率，然后利用特征条件独立假设简单条件概率的计算。

朴素贝叶斯法实现简单，但由于特征独立性假设过于强烈，有时会影响准确性，为此我们可以使用更加健壮的支持向量机分类器。

五、支持向量机分类器

支持向量机是一种二分类模型，其学习策略在于如何找出一个决策边界，使得边界到正负样本的最小距离都最远。这种策略使得支持向量机有别于感知机，能够找到一个更加稳健的决策边界。支持向量机最简单的形式为线性支持向量机，其决策边界为一个超平面，适用于线性可分数据集。

六、标准化评测

评测指标P、R、F1，中文文本分类的确不需要分词，不分词直接用二元语法反而能够取得更高的准确率，只不过由于二元语法数量比单词多，导致参与运算的特征更多，相应的分类速度减半。

线性支持向量机的分类准确率更高，而且分类速度更快，推荐使用。

犀利哗啦760596103

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理学习笔记十一（文本分类）

在文本聚类中，体验了无须标注语料库的便利性，但是无监督学习总归无法按照我们的意志预测出文档的类别，限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中，于是有了文本分类的产生。一、文本分类的概念文本分类，又称为文档分类，指的是将一个文档归类到一个或者多个类别中的自然语言处理任务。文本的类别称为标签，如果一个文档属于多个类别，此时此类问题称为多标签分类。文本分类是一个典型的监督学习任务，其流程离不开人工指导：人工标注文档的类别，利用...
复制链接

扫一扫