连续属性的离散化

本文探讨了连续属性的离散化问题,主要关注U.M. Fayyad&IRANI的方法,但由于找到的资料质量不佳,转向研究了Stanford论文中提出的简化方案。离散化过程包括寻找断点的二分递归方法和确定递归停机条件,其中信息熵和MDLP原则是关键。研究表明,离散化能提升贝叶斯分类器的性能,而基于熵的方法效果最佳。
摘要由CSDN通过智能技术生成

参考了wiki百科(其中列出几篇paper,并提到基于信息熵计算的方法比较主流),U.M. Fayyad&IRANI的93年paper(版本印刷质量太差,没有看完),一篇standford的若干人等的paper,及国内的一篇各种离散化方法比较的paper.

其实我只是想了解U.M. Fayyad&IRANI的方法,但找到的版本质量太差,错别字一堆,公式也很不清楚,没有看完。。追求实用的话standford篇倒是值得一看,对这两位阁下的方法精简讲了一番(但是电子版的质量真的也不怎么好。。凑合着能用吧)。

 

问题描述:

对于某个连续属性A,样本集S,如何将之离散化?(有指导的情况)

问题解决:

可以简化为两大步:

一,二分递归地寻找断点。

     候选断点: 找不同类的相邻点,取它们之间的某点(如中点)。

     每次在区间内寻找断点时,有若干候选断点(例如所有样本的该属性值)。每个候选断点T都能将S划分为两个子集,分别计算这个子集的信息熵,然后加权求和,得到关于T的分类信息熵Ent(A,T,S)。取使得分类信息熵最小的断点T,作为最终选定断点。

二,确定递归停机条件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值