Svm -KNN分器在网页分类中的应用_如何 svm 结合 knn-CSDN博客

Intenet网上海量信息使得网页分类成为一个日益重要的研究领域。网页分类通过自动为文本标注类别，可以有效地帮助人们组织管理文本信息，已经逐渐成为数据挖掘领域中一个重要的研究方向并且具有很高的商业价值。目前，文本分类已经被应用到许多领域中，包括:抽取符号知识，分发电子邮件，生成用户兴趣模式和邮件内容监控等等。

文本分类的目标是在分析文本内容的基础上给文本分配一个或多个比较合适的类别。传统上，网页分类是由人来完成的。即人在分析了网页的内容后，给它一个比较合适的类别，很明显这需要大量的人力资源。近年来，许多统计学习的方法和机器学习的方法被用于文本分类，包括:决策树、k邻近、Bayes方法、神经网络、符号规则学习、归纳学习算法和休眠专家方法等等。这些方法都基于首先将网页表示为向量，然后计算向量之间在向量空间中的距离作为分类依据。K邻近也是一个常用的模式识别算法，并且在许多领域（简单情况和复杂情况)都显示出良好的性能。当对待识别样本分类时，通常要遍历训练实例空间以找到查询实例的K个最近的邻居。然而，在文本分类中，由于特征空间的维数高训练样本多，使用k邻近分类时的计算量较大.

支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法。SVM通过构造最优分类超平面最大化类与类的间隔，找到对分类有较好区分能力的支持向量。由于SVM具有好的泛化能力（泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。），SVM已被用于孤立的手写体识别、语音识别、人脸识别。

SVM-KNN分类器是结合了k邻近和SVM两种算法的优势。对于位于分界面较远的测试样本直接带入承瓜纷类;而对于位于分界面附近的样本使用SVM容易分错，代入KNN方法分类，分类时遍历支持向量组成的特征空间而不是训练样本组成的原始输入空间，保证了较高的分类精度又在很大程度上降低计算量。

一：中文网页的表示方法：对于普通文本的表示方法。每一篇文档都被映射成多维向量空间中的一个点。若所有文本的全部特征总数是n，则构成一个n维的向量空间。其中每一个文本被表示为一个n维向量(w₁,w₂,...,w_n)。向量在每一维上的分量对应该特征在这篇文本中的权值。在Salton【introduction to modern information retrieva】提出的一种文本表示方法如下式

在这个公式里面t_{ti 表示该特征在给定文本中出现的次数;N是训练集中所含文本的总数;}n_j_{是出现该特征的文本数。式子中主要考虑了两个方面的因素。一是该特征在该文本的词频，因为文本的中心内容总是被反复论述的。另一个因素是词的新颖性。一般而言，在训练集合中，如果一特征出现在文本的个数越多，表明它的出现越普遍，不可能是代表该文本的重要特征，所以权重会较低。}

与纯文本数据不同，网页数据是一种半结构化的数据。在网页表示中，对任一特征而言，有两个因素影响特征的权值。一是词在单个标记、HTML文档和整个训练集中出现的词频，这主要是从内容上分析;另一个是该词的视觉效果，即给人留下的醒目程度，这是从HTML的格式上进行分析。在HTML文档中，正文信息是嵌入在HTML标记中的。
HTML标记的标记具有嵌套结构。仔细分析HTML文件的格式，可以发现其中有一些信息是对分类无益的。根据标记表示的含义我们将上述标记分成两类，一类是对网页的全局描述信息，它包含的特征为该网页最重要的特征。如Title中的内容，它概括和总结了整个网页的内容，因此其中的词起关键作用;<META>的数据反映了作者本人认为该网页的关键词等信息，也至关重要。另一类标记一般起局部修饰作用，或多或少的强调了网页的部分内容。同时值得注意的是这些单个起强调作用的标记可能会叠加起作用，这种作用体现在视觉的高度强调性。例如大的红色标题可能是标记<SIZE>, <COLOR>，<H2>的叠加作用后的结果。为了精确表示网页的内容，定义标记集S={title,h1,h2,h3,h4,h5,h6,B,U,I,URL,META},权值集W={w_∧|(∧S)}

二：SVM -KNN相结合的网页分类方法

2.1：SVM是一种具有较强泛化能力的学习机器，也存在一些问题，如对复杂应用分类能力差。在实际应用中，也发现SVM法对于在分界面附近的测试样本容易分错。为解决这个问题，需要尽量利用分界面附近的样本提供的信息以提高分类性能。通过SVM的分类机理分析，我们发现并证明了SVM和近邻分类器的联系，即SVM可以看成每类只有一个代表点的最近邻分类器。在此基础上提出了SVM-KNN分类算法。算法的基本思想在训练阶段使用SVM训练，找
到支持向量。在分类阶段计算待识别样本和分界面的距离，距离大于给定的阈值，即样本离分界面较远，则用SVM分类，反之用KNN对测试样本分类，选择每类的所有的支持向量作为代表点组。数值实验证明了使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率

三：本文将SVM-KNN方法用于中文网页分类。为了能进一步更加准确地反映文档分布的比例情况，本文对经典的词语权重的计算方法进一步做了改进，提出了一种中文网页的表示方法。在将下载的网页全部表示为向量空间的向量后，用SVM构造了一个多类分类器。在分类时通过在特征空间计算网页所表示的向量和分界面的距离决定采用SVM
方法或KNN方法对其分类。实验证明该方法是一种有效的方法，对网页分类的各类使用该方法均比使用SVM方法具有更高的分类精度，同时能缓解SVM训练时对核参数的选择困难问题。