文本分类中KNN算法

原创 2007年09月30日 15:46:00
文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

    KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。

    该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

    该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

 

k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。

重点:

1:特征降维(一般用CHI方法)

2:截尾算法(三种截尾算法)

3:降低计算量 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

JSP页面用EL表达式 输出date格式

JSP页面用EL表达式 输出date格式    1、头上引入标签 2、 首先导入标签 http://java.sun.com/jsp/jstl...

Spring MVC 异步处理请求,提高程序性能

什么是异步模式   一个普通 Servlet 的主要工作流程大致如下: 以下3个步骤都在同一个线程中完成 --- 同步阻塞 ...

JSP中的EL表达式详细介绍

一、JSP EL语言定义        EL 提供了在 JSP 脚本编制元素范围外使用运行时表达式的功能。脚本编制元素是指页面中能够用于在 JSP 文件中嵌入 Java 代码的元素。它们通常用于对象操...

JSP && EL表达式

起初被JSP对象弄得好乱,学了EL表达式后更乱~   不过今天花了一上午时间,搞透了(*^__^*) 嘻嘻……   首先说一下JSP内置对象:       JSP内置对象类型映射表...

Tomcat实现Session ID的持久化保存实现

一般的,如果一个用户打开一个浏览器,服务器就会分配一个sessionid,通过session.getId()函数可以返回session的id; 但是如果一旦关闭服务器后,再重启服务器,刷新页面,则服...

servlet 数据存储几种方式和jsp 作用域

有几个对象 1、Session:一个用户第一次访问网站,有一个唯一的id 存在客户电脑里(cookie) 2、request:从浏览器的一次请求 3、ServletContext:可以表示多个sevl...

JSP中使用EL表达式

添加EL表达式         EL可以直接用在JSP的任何位置,除了少数例外情况。首先,EL表达式不能用在任何指令中,不要尝试这么做。在编译JSP时,指令(、和)将会被执行,但EL表达式是在稍后渲染...

Java开发webservice三款工具:axis2/xfire/cxf

Axis2 Axis2 具有模块化体系结构,由核心模块和非核心模块组成。据说,Axis2 核心是纯 SOAP 处理引擎,并没有包含 Java™ API for XML-based RPC (JAX-R...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)