基于支持向量机实现中文文本分类
摘要 支持向量机(简称可看作一种广义的线性分类器,其基本思想是:通过非线性变换将输入空间变换到一个高维的特征空间,并在新空间中寻找最优的线性分界面。
关键词 文本分类 特征提取 支持向量机
1引言
所谓“数据丰富但知识缺乏”的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。其中文本挖掘就是从文本集中挖掘和发现隐含的归纳知识如关联知识、时问序列信息,甚至科学文献的创新推断和假设等。文本挖掘的具体实现技术主要有:特征提取、主题标引、文本分类、文本聚类、自动摘要等。
文本自动分类任务是对未知类别的文字文档进行自动处理, 判别它们所属预定义类别集中的一个或多个类别。 随着各种电子形式的文本文档以指数级的速度增长,有效的信息检索、内容管理及信息过滤等应用变得越来越重要和困难。 文本自动分类是一个有效的解决办法,已成为一项具有实用价值的关键技术。 近年来, 多种统计理论和机器学习方法被用来进行文本的自动分类,掀起了文本自动分类的研究和应用的热潮。
常见的文本分类算法有Navie Bayes算法,K-近邻算法和支持向量机算法等。
2分类方法概述
2.1 Navie Bayes算法
Navie Bayes是一种以贝叶斯定理为理论基础的统计学的分类方法,是一种在已知先验概率和条件概率的情况下求后验概率的模式识别方法。Navie Bayes分类方法是一种简单有效的分类方法。
Navie Bayes分类方法的基本思想是:在已知先验概率和条件概率的情况下,计算待分类文本属于各个类别的后验概率,然后将待分类文本分到后验概率最大的类别中。其中文本属于某个类别的概率为文本中各个特征词属于该类别概率的综合表达式。
Navie Bayes的一个前提假设是:文本的特征词之间是相互独立的,即文本的一个特征词对分类的影响独立于其他特征词对分类的影响。
朴素贝叶斯分类的正式定义如下:
由于Navie Bayes分类方法是在特征独立性假设的前提下进行文本分类操作的,该假设会影响Navie Bayes的分类结果。本人在weka上使用Navie Bayes分类算法进行文本分类,其准确率只有70%左右,召回率在65%左右