KNN算法改进:泛化实例算法(Generalized Instance Set Algorithm,GIS)

泛化实例算法(GIS)

  GIS算法认为:对于给定的一个category,positive实例中所蕴含的规则(regularity)比negative实例中所蕴含的规则更明显;从一组相似的positive实例中推知的模式或分类信息要更准确,而离这些positive实例比较接近的negative更可能是noise。根据这一思想,GIS算法试图构造出一个基于training集合的泛化实例集合(a set of generalized instances),来代替原始的training集合。

  GIS算法可以简单描述如下:首先随即选择一个当前category C的positive实例(设为G)作为代表实例,随后执行下面的操作:计算G的k个最近邻。令G' = G,根据最近邻信息评估实例G'的代表能力Rep(G'),同时对G进行泛化(Generalize)并重新计算泛化后G的代表能力Rep(G)。若泛化后的代表能力更强,则重复这种操作。否则将G'加入到最终的泛化实例集合GS中,并将其k个最近邻从初始training集合T中删除。当训练集T中无category C的positive实例时,算法停止。GIS算法的详细描述如下:

        

  下面给出代表能力评估函数的定义:

        

其中K表示当前[泛化]实例G的k个最近邻组成的集合,I+表示positive实例,rank(I+)是根据相似性降序排列时实例I+在k个实例中的次序。可以看出这种定义方式不仅考虑了positive实例的数目,也考虑positive实例与G的相似性分数在k个相似性分数中的顺序关系。

  若基于Rocchio algorithm,对实例G进行泛化这一过程可以依照如下的方式:

        

其中Pk、Nk分别是G的k近邻中positive实例集合和negative实例集合,参数用来调节。

 

分类过程

  首先计算category C与任意一个泛化实例G的相关因子(association factor),如下:

          

其中P表示训练集中C类positive样本的数目,Pk表示G的k个近邻中,为C类positive样本的数目。对于一个待分类的document X,其与category C的相关分数按如下方式计算:

       

其中表示G与X的相似性度量。得到这个分数后,分类即可相应完成。

转载于:https://www.cnblogs.com/xiaoxuch-zhl/archive/2012/08/12/2634234.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值