基于高级多类实例选择的支持向量机的文本分类

              本文提出的算法:在本文中,我们提出了基于高级多类实例选择的支持向量机(AMCISSVM)来提高支持向量机的效率。他提出的算法与多类实例选择(MCIS)和邻域属性基于模式选择(NPPS)算法进行比较。 高级MCIS对多数据集显示出高精度。 这些实验数据集从UCI机器学习库中检索。

        背景意义:如今,IT的发展已经导致电子文本文档的使用巨大。 由于这个原因,文本挖掘是从大量文本文档中检索有趣知识的非常有用的技术。 在巨大的文本文档中提取相关知识是一个困难的问题。 在文本文档中提取准确的知识是为了方便用户他们需要什么。文本挖掘成功应用于市场分析,业务管理,电子报,网页分类等多个领域。 文档是一组文本集合。 文本类别可以从稀疏分类方案或从非常特定的内容标识符的大集合中导出。 文本类别可以用数字表示,或者作为短语和单个词。 传统上,文本分类任务由域专家手动执行。最近几年,文本分类方法分为两种方式:一种是知识工程,另一种是机器学习。 目前,机器学习方法是文本分类中的复杂方法,其对于几个领域是有用的。               IT的巨大发展也增加了文本文档库的大小。 因此,模型学习的巨大和存储空间和计算成本是非常高的。为了克服这个问题,实例选择是解决这些限制的一个解决方案。 经典SVM被试探性地扩展到不同维度的多实例分类。


      文本分类的过程是基于一些labeld文档构建一个分类器,并将未标记的文档组织成预先指定的类别。 目前,不同的技术被用于文本分类,如决策树,朴素贝叶斯方法等。 然而,支持向量机(SVM)是专门用于文本分类的监督学习分类器中的时尚研究主题。García等人[ Automatic text classification to support systematic reviews in medicine. ] 进行实验研究使用不同的机器学习技术,即朴素bayes,KNN,SVM和Rocchio分类。作为最后一点,他们认为支持向量机分类精度优于其他。Jiali等人[ A multi-layer text classification framework based on two-level representation model. ] 引入了多层文本分类框架,具有用于文本分类的两级表示模型。 他们提出了一种基于上下文的方法,用于根据文档结构信息识别每个术语的最相关的概念。


        文献:一些实例选择算法基于聚类技术。 Subhransu Maji et al。 [Efficient Classification for Additive Kernel SVMs]提出了用于有效图像分类的加性核SVM。与现有技术的分类技术相比,该加性核SVM提供了更好的精度。                   Jingnian Chen et al。 [Fast instance selection for speeding up support vector machines]提出了多类实例选择(MCIS)方法来选择最接近边界的实例,并且MCIS已被用于提高支持向量机的速度。 另一方面,使用这种方法选择实例将是最小的。                                                                                                                                                                      JiChih-Fong Tsai et al。 [SVOIS: Support Vector Oriented Instance Selection for text classification]介绍了一种用于预处理的新型实例选择方法,即支持向量导向实例选择(SVOIS),用于实例选择文本分类。 SVOIS与几种实例选择算法比如ENN,IB3,ICF和DROP3。                                                                                                                                Ramesh B等人 [ Support Vector Machine using Efficient Instance Selection for Micro Array Datasets]建议预先计算的多类别实例选择(PCMCIS)文本分类加快SVM。                                                                                                        Xinjun Peng et al。 [11]提出的结构正则化投影双向支持向量机,通过内核窍门和伍德伯里矩阵识别扩展到非线性情况,该方法非常适合二进制分类。                                                                                                                                    乔玉林等 [Enhanced multi weight vector projection support vector machine]在线性情况下开发了多权重向量支持向量机。 但是,MWVSVM没有扩展到非线性情况,其单个投影权重向量不足以使每个类实现最佳分类。                          Chin Heng Wang et al。 [ A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine]提出的混合分类方法使用K-最近邻和支持向量机(SVM-NN)。 在这种SVM-NN方法中消耗更多的时间和更少的精度。                                                                                              Chih-Fong Tsai et al。 [5]提出了生物遗传算法(BGA),例如文本分类的选择。 BGA与其他文本分类算法相比,即IB3,DROP3和ICF。BGA消耗用于实例选择的最少计算时间。 然而,将BGA的性能提高到巨大的数据集,以开发更有效的适应度函数。

       方法,算法:提出AMCISSVM从多类数据集中选择实例以提高SVM的速度和效率。NPPS用于使用邻居熵概念来选择边界实例。 NPPS性能完全基于所选的实例数。 MCIS用于聚类技术来选择实例。                                                         给定实例标签对(x i,y i)的训练集; i = 1 ...... l其中xiЄR n和yЄ{1,-1} l,支持向量机(SVM)需要在方程[1]中的以下标准支持向量机优化公式的解:                                                                                                                                                                                                                训练向量x i通过函数ϕ映射到更高维空间。 SVM找到在这个更高维度空间中具有最大边缘的线性分离超平面。 C> 0是误差项的惩罚参数。 此外,K(x i,x j)≡(x i)T(x j)被称为核函数                                                                           分类精度使用公式计算:                                                                                                                                                                  

       

       实验:AMCISSVM性能是使用从UCI存储库检索的几个医疗疾病数据集进行实验证明的。 将AMCISSVM的结果与多类实例选择(MCIS)和基于邻域属性的模式选择(NPPS)算法进行比较。 对于所有数据集,包含五个方面列出:数据集的大小,类数,数量要素,训练集和测试集。 AMCISSVM正在提高文本分类的性能。 使用公共可用的微阵列数据集调查AMCISSVM在表I中描述。这些数据集是从UCI机器学习库接收的。   

       


       总结:文本挖掘技术被更广泛地用于通过提取激动人心的有用信息来组织大量的文献。 在本文中,我们引入了先进的多类实例选择,即先进的多类实例选择支持向量机。 根据实验结果的观察,AMCISSVM优于NPPS和MCIS用于选择要分类的实例。 AMCISSVM在所有方面都是最好的,例如分类精度,所选实例的比率和时间消耗。 提出的AMCISSVM正在提高精度以支持向量机。 将来,我们以非常少的时间增加AMCISSVM精度,并且利用巨大且不同的域数据集来调查其性能。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值