论文笔记3《基于信息增益和最小距离分类的决策树改进算法》

2013年《科学技术与工程》期刊

部分摘要:改进后的算法针对决策树在分类过程中遇到的训练集中存在相同属性集,但属于不同类别的实例的情况,不再采用多数表决法判断叶结点的类别,而是采用基于信息增益的属性约简和最小距离分类的新方法进行类别的判断。


算法改进:



算法描述:

(i)    先构造ID3决策树,但在构造的过程中对于具有相同属性集属于不同类别的实例,暂时用null标注它的类别;

(ii)   对决策树中所有类别为的叶结点,调用基于信息增益的最小距离分类器对它们进行重新分类。


实验结果:

    数据:



从图中可以看出树叶1-6都是纯叶结点,树叶7不是纯叶结点。训练集中实例8,9属于树叶7,而实例8和实例9具有相同属性集,但属于不同类别, 下面将采用基于信息增益的最小距离分类来决定树叶的类别。

(1) 计算属性的信息增益并将信息增益归一化处理后结果为:

InfoGain(weather)=0.56

InfoGain(temperature)=0.11

InfoGain(humidity)=0.31

InfoGain(windy)=0.02

(2) 就算叶子7和其他叶节点的距离:

树叶7的中心结点K的各属性值为:(weather=rain,temperature=cool,humidity=normal,windy=yes,tennis=null);

树叶6的中心结点K的各属性值为:(weather=rain,temperature=hot,humidity=high,windy=no,tennis=no);

树叶5的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=no,tennis=yes);

树叶4的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=yes,tennis=no);

…其他同理

则距离D(K,)==0.663;D(K,)=0.663;D(K,)=0.648;

通过比较可知与最近的应该是,因此树叶7的类别应该与树叶4一样为no。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值