python数据挖掘实验报告_数据挖掘实验报告-决策树程序实验

这篇博客通过Python进行了数据挖掘实验,重点展示了决策树在收入范围、保险、性别和年龄属性上的信息增益计算。实验结果显示,收入范围的信息增益最高,其次是年龄、性别和保险。文章提及了ID3算法在处理离散值属性的优势和局限性。
摘要由CSDN通过智能技术生成

E(S)=(-9/15)log2(9/15)-(6/15)log2(6/15)=0.971

Values(收入范围)={20-30K,30-40k,40-50K,50-60K}

E(S(20-30K))= (-2/4)log2(2/4)- (2/4)log2(2/4)=1

E(S(30-40K))= (-4/5)log2(4/5)- (1/5)log2(1/5)=0.7219

E(S(40-50K))= (-1/4)log2(1/4)- (3/4)log2(3/4)=0.8113

E(S(50-60K))= (-2/2)log2 (2/2)- (0/2)log2(0/2)=0

所以

E(S,收入范围)=(4/15) E(S(20-30K)) +(5/15) E(S(30-40K)) +(4/15) E(S(40-50K)) +(2/15) E(S(50-60K))=0.7236

Gain(S,收入范围)=0.971-0.7236=0.2474

同理:计算“保险”,“性别”,“年龄”的信息增益为:

E(S)=(-9/15)log2(9/15)-(6/15)log2(6/15)=0.971

Insurance(保险)={yes, no}

E(S(yes))= (-3/3)log2 (3/3)- (0/3)log2(0/3)=0

E(S(no))= (-6/12)log2 (6/12)- (6/12)log2(6/12)=1

E(S,保险)=(3/15) E(S(yes)) +(12/15) E(S(no)) =0.8

Gain(S,保险)=0.971-0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值