简介
文本分类作为自然语言处理任务之一,被广泛应用于解决各种商业领域的问题。文本分类的目的是将 文本/文档 自动地归类为一种或多种预定义的类别。常见的文本分类应用如下:
-
理解社交媒体用户的情感
-
识别垃圾邮件与正常邮件
-
自动标注用户的查询
-
将新闻按已有的主题分类
主要步骤
文本分类属于有监督机器学习任务,这是因为文本分类任务利用一个包含文本/文档及其对应类标的有标注数据集来训练一个分类器。一个端到端的文本分类流程包括四个主要环节:
-
数据集准备: 第一步为数据准备,这一步包括数据加以及基本的预处理工作。数据集之后会被分割的训练集与验证集。
-
特征工程: 第二步为特征工程,在这一步中,原始数据会转变为适用于机器学习模型的特征。这一步还包括从已有数据中构建新的特征的过程。
-
模型训练: 最后一步为模型构建,在这一步中机器学习模型会在一个有标注数据集上进行训练。
-
提升文本分类器的性能: 在这篇文章中,我们还会关注各种提升文本分类器性能的方法。
特征工程的分类
原始数据会被转换为特征向量并且会从已有的数据中构建出新的特征。为了从我们的数据集中提取出相关的特征,我们会实现以下各种想法。
2.1 以计数向量为特征
2.2 TF-IDF 向量为特征
-
词汇级
-
N-Gram 级
-
字符级