一种快速高效的文本分类方法(一)

      随这互联网在全球的普及和应用的不断发展,Web上的文本资源近年来呈现爆炸式增长,如何充分有效地利用这些信息成为人们关注的焦点。文本分类通过自动为文本标注类别,可以有效地帮助人们组织管理文本信息,已经渐渐成为数据挖掘领域中一个重要的研究方向并且具有很高的商业价值。目前,文本分类已经被应用到许多领域中。包括:抽取符号知识,分发电子邮件,生成用户兴趣模式和邮件内容监控等等。

      近年来,许多统计学习的方法和机器学习的方法被用于文本分类,包括:决策树、K近邻、Bayes方法、神经网络、符号规则学习、归纳学习算法和休眠专家方法等等。

      在所有这些算法中,向量空间法是最简单快速的算法,但是它只适用于各个类之间差异比较明显的简单分类问题,而对于较复杂的情况,它的分类结果通常相对差一些,k近邻也是一个常用的算法,并且在许多领域(简单情况和复杂情况)都显出良好的性能。然而,在文本分类中,k近邻的一个弱点是它分类时的计算量较大,当它为一个末见实例分类时,它通常要遍历训练实例空间以找到查询实例的k个最近的邻居。尽管有许多的索引技术被引入提高最近邻的查询效率。但这些技术只在低维的实例空间有效。随着实例空间维数的提高,这些索引的性能急剧下降,以至于每次查询几乎都要遍历整个实例空间。可是许多应用(比如基于内容的电子邮件的监控,分发和垃圾邮件的过滤),既要较高的分类性能也需要较高的分类效率。为了实现这一目标,我们综合了向量空间法和k近邻方法的长处,提出一个新的算法,让它在相同类别的文档集聚的地方使用向量空间法而在不同类别的文档混杂的地方使用k近邻方法。从而利用较少的时间获得较高的分类精度。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值