决策树的划分选择

定义信息熵:

Ent(D)=-\sum_{k=1}^{n}p_{k}log_{2}p_{k},其中p_{k}为第k个样本占比,D为样本集。

定义信息增益:

Cain(D,a)=Ent(D)-\sum_{v=1}^{v}\frac{|D^{v}|}{|D|}Ent(D^{v}),其中V为分支节点,a为属性。

使用举例(书上的例子):

编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜

1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是

2 乌黑 蜡缩 沉闷 清晰 凹陷 硬滑 是

3 乌黑 蜡缩 1虫响 清晰 凹陷 硬滑 是

4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 是

5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 是

6 青绿 稍蜷 浊响 清晰 稍凹 软粘 是

7 乌黑 稍蜷 浊日向 稍糊 稍凹 软粘 是

8 乌黑 稍蜷 独日向 清晰 稍凹 硬滑 是

9 乌黑 稍蜷 祝闷 硝糊 稍凹 硬滑 否

10 青绿 硬挺 清脆 清晰 平坦 软粘 否

11 洁白 硬挺 清脆 模糊 平坦 硬滑 否

12 洁白 蜷缩 浊响 模糊 平坦 软粘 否

13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否

14 浅白 稍蜷 沉闷 稍糊 凹陷 硬情 否

15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 否

16 践自 蜷缩 浊响 模糊 平坦 硬滑 否

17 青绿 蜡缩 沉闷 稍糊 稍凹 硬滑 否
 

我们用色泽进行分类,可以分为三类D^{1}青绿,D^{2}乌黑,D^{3}浅白。

D^{1} {1, 4, 6, 10, 13, 17}

D^{2} {2, 3, 7, 8, 9, 15} 

D^{3} {5, 11, 12, 14, 16} 

Ent(D^{1})=-(\frac{3}{6}log_{2}\frac{3}{6}+\frac{3}{6}log_{2}\frac{3}{6})=1.000

通过对比可知,p_{k}为样本中的比例,什么比例?这个例子中就是好瓜与怀瓜的比例,各有三个,故为3/6、

同理有Ent(D^{2})=0.918,Ent(D^{3})=0.722

Cain(D,color)=Ent(D)-\sum_{v=1}^{3}\frac{|D^{v}|}{|D|}Ent(D^{v})=0.988-(\frac{6}{17}\times 1.000+\frac{6}{17}\times 0.918+\frac{5}{17}\times 0.722)=0.109

D的信息熵可以按照公式计算。

我们计算每一个属性的信息增益,将其作为节点在进行分支。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值