数据挖掘——决策树

决策树

考虑以下的二类训练样本集

Instance

A

B

Class Label

1

T

F

+

2

T

T

+

3

T

T

+

4

T

F

-

5

T

T

+

6

F

F

-

7

F

F

-

8

F

F

-

9

T

T

-

10

T

F

-

(1)计算以属性A或B为划分的信息熵(Entropy)增益,并说明决策树学习算法选择哪个属性进行划分;

(2)计算以属性A或B为划分的Gini增益,并说明决策树学习算法选择哪个属性进行划分;

(3)计算以属性A或B为划分的分类误差(Classification Error)增益,并说明决策树学习算法选择哪个属性进行划分;

(4)说明信息熵增益、Gini增益和分类误差增益对属性选择有不一样的偏好。

答:

1

根节点信息熵Ent(root) = -= -(4/10)-(6/10)=0.97

以属性A划分的信息熵Ent() = 0.985, Ent() = 0;

信息熵增益GAIN = Ent(D)-Ent() = 0.28;

以属性B划分的信息熵Ent() = 0.81, Ent() = 0.65;

信息熵增益GAIN = Ent(D)-Ent() = 0.26;

A划分的信息熵增益更大,所以选择A划分。

2

根节点Gini系数Gini(root) = 0.48;

以属性A划分Gini(T) = 0.49, Gini(F) = 0;Gini增益为0.48-0.34 = 0.12;

以属性B划分Gini(T) = 0.38,Gini(F) = 0.28,Gini增益为0.48-0.32 = 0.16;

以属性B划分的Gini增益更大,所以选择B划分。

3

根节点的分类误差Error(root) = 0.4;

以属性A划分Error(T) = 3/7,Error(F) = 0,Error增益为0.1;

以属性B划分Error(T) = 0.25,Error(F) = 1/6,Error增益为0.2;

以属性B划分的分类误差增益更大,所以选择B划分。

4

信息熵增益偏好于属性AGini增益,分类误差增益更偏好于属性B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值