基于KNN＋层次SVM的文本自动分类技术

最新推荐文章于 2023-08-12 15:23:00 发布

boom_j

最新推荐文章于 2023-08-12 15:23:00 发布

阅读量1.4k

点赞数 1

针对大规模文本的自动层次分类问题，Ｋ近邻（ＫＮＮ）算法分类效率较高，但是对于处于类别边界的样本分类准确度不是很高。而支持向量机（ＳＶＭ）分类算法准确度比较高，但以前的多类ＳＶＭ算法很多基于多个独立二值分类器组成，训练过程比较缓慢并且不适合层次类别结构等。提出一种融合ＫＮＮ与层次ＳＶＭ的自动分类方法。首先对ＫＮＮ算法进行改进以迅速得到Ｋ个最近邻的类别标签，以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次ＳＶＭ分类器对其进行自上而下的类别划分，从而实现对文档的高效准确的分类过程。实验结果表明，该方法在单层和多层的分类数据集上的分类准确度比单独使用其中任何一种要好，同时分类时间上也比较接近其中最快的单个分类器。

当前流行的自动文本分类算法主要有神经网络ＮＮ算法、朴素贝叶斯ＮＢ方法、Ｋ近邻ＫＮＮ算法和支持向量机ＳＶＭ算法等。Ｙａｎｇ等在数据集Ｒｅｕｔｅｒｓ-21578 上的实验表明，相比于其他方法，ＫＮＮ和ＳＶＭ方法无论在召回率还是准确率上都有一定程度的提高。ＫＮＮ算法原理简单，分类效率较高，但其是一种基于实例的统计学习方法，对于处于类别边界的样本分类准确度不是很高。而ＳＶＭ分类算法目标在于最大化分类边界之间的距离，因此分类准确度比较高，但训练分类器过程比较缓慢。因此，研究者通过对ＫＮＮ和ＳＶＭ两种算法进行有机结合，一方面提升分类的准确度，一方面提高分类效率，从使海量文档自动分类达到较好的效果。

【Ｋ-ＮＮ与ＳＶＭ相融合的文本分类技术研究】这篇文献，提出一种将ＫＮＮ与ＳＶＭ相结合的文本分类算法。首先使用ＫＮＮ算法找出与文本最接近的Ｋ个邻居的类标签，然后在邻居类标签集上使用多个二值ＳＶＭ分类器对样本进行精分，在减少有效候选类数目的同时，有效提高了分类的准确度。不足：由于这些二值分类器分别由不同的训练样本单独训练得到，可能无法保证学习得到的分类面在分类输出上保持良好的可比性。另一方面，其假设的单层文本类别结构在实际中往往是较少数的。

【基于ＳＶＭ-ＫＮＮ的文本分类算法及其分析】这篇文献，首先使用所有类的ＳＶＭ分类器对样本进行划分，然后对各类别的输出概率进行比较。只有当最大输出值（预测正确类）与次大输出值（其它最具混淆性的错误类）之间的差大于某个阈值时，才将该结果作为分类器的最终输出结果。如果其差值小于该阈值，则进一步使用ＫＮＮ分类器来得到最终结果。这样提高了分类输出结果的置信度，然而，在最坏情况下，该方法的分类过程是ＳＶＭ和ＫＮＮ方法的线性叠加，分类的效率有所下降。

然而，ＫＮＮ算法通常需要计算待测样本到所有训练样本的距离并排序，从而选出其最近的Ｋ个邻居。假设每个样本的特征维度为ｄ，则上述步骤的时间复杂度为ｎ × ｄ＋ｎｌｏｇｎ。在对海量文本进行分类时，ｎ的值往往很大，特征维度也比较高。因此，为了加快ＫＮＮ算法的执行效率，一般从两个方面改进算法的分类效率：１）降低样本的维度，选择最精简的特征来表示文本向量，这种做法往往较为直观，但是当维度过少时分类效果会显著降低；２）将训练集中的相似文本适当归并，将其作为一个文档来处理，这样将明显减少需要比较的文档数目。这里我们采用文献【Ｋ-ＮＮ与ＳＶＭ相融合的文本分类技术研究】中的方法，在每个自然类别中再对其进行类别内部文档的聚类，将其聚成ｊ个子类。然后计算每个子类的中心向量，最后将待分类样本与这些子类的中心向量计算距离，从而快速找出最近的Ｋ个邻居中心。由于聚类后每个类别包含的文本数量急剧减少，因此ＫＮＮ分类的算法效率有了明显的提高。

支持向量机ＳＶＭ方法具有较为完备的理论基础。在各种不同的实际应用中也表现出了较为优越的分类性能，并具有较高的计算效率，能够高效处理大规模数据。支持向量机利用训练数据来建模最大间隔超平面，然后使用超平面作为决策边界，对未归类的数据进行分类。所谓最大间隔，即训练集样本点到该超平面的最小几何间隔最大，而间隔越大则泛化错误越小，对于新数据的分类判别能力就越强。最终分类超平面的建模实际上只需要用到离超平面最近的少数训练样本，这些样本也就是“ 支持向量 ” ，其他不是支持向量的训练样本点对分类超平面没有任何影响，因此支持向量机方法具有较高的稳定性。

ＫＮＮ＋层次ＳＶＭ算法流程在算法的训练阶段，两部分单独进行。ＫＮＮ训练过程主要是对各个类中的子类进行聚类并找到最优的Ｋ值；层次ＳＶＭ分类器的训练主要得到层次类别树上各分类面的参数。而在实际分类阶段，算法首先利用ＫＮＮ分类算法计算其最近的Ｋ个邻居中心，然后统计其Ｋ个最近邻居中的所有类别，对于每个类别分别调用相应的层次ＳＶＭ分类器进行分类。

“ ＫＮＮ＋层次ＳＶＭ” 算法流程如下所示：算法ＫＮＮ＋层次ＳＶＭ分类算法输入样本集和待测样本ｘ的特征向量输出待测样本ｘ的层次分类标签步骤：
１）通过距离函数选择与待测样本ｘ距离最近的ｋ个训练样本中心（子类中心向量）；其中ｋ为ＫＮＮ训练得到的最优参数。
２）对于这ｋ个样本中心对应的每个类别ｗｉ，我们保留其对应的层次路径作为候选集，将待测样本ｘ的特征向量输入该候选集对应的各层次的ＳＶＭ分类器，计算样本ｘ与路径上各类的相似度。
３）若与叶子节点ｗｉ类的相似度值最大，则将类别ｗｉ对应的层次路径类别标签作为样本ｘ的分类结果，算法结束。

“ ＫＮＮ＋层次ＳＶＭ” 分类算法结合了ＫＮＮ算法的时效性和ＳＶＭ算法的准确性。通过ＳＶＭ分类器对ＫＮＮ分类器得到的邻居标签作为候选标签集进一步分类，达到的准确度比较高。该方法尤其对于类别标签比较多时更有效，可以使用ＫＮＮ过滤掉一些明显不需要调用的类别对应的ＳＶＭ分类器。
文本预处理和特征选择，从原始的中文文本得到标准长度的文本向量需要一个文本预处理的过程。该过程主要由分词、去停用词和统计词频信息三部分组成。本文采用中科院计算所的开源分词工具ＩＣＴＣＬＡＳ来实现。我们对每篇文档中出现的词统计其词频和出现的文档数量（文档频率），以计算文档特征权重词频 -反文档频率（ＴＦ-ＩＤＦ）向量。在获得以上统计信息后，计算特征词典中每个特征词对于每个类别的区分度。这里使用交叉熵和互信息计算特征区分度的方法，将其加权平均来选择有效的特征。