机器学习总结2 #博学谷IT学习技术支持#

本文深入介绍了ID3和C4.5两种决策树算法。ID3算法通过信息熵和信息增益来选择最优特征进行数据划分,而C4.5则引入信息增益率,对特征值较多的属性进行惩罚,避免过拟合。通过实例展示了如何计算信息熵、条件熵、信息增益和信息增益率,并解释了为何C4.5在特征选择上更为优胜。
摘要由CSDN通过智能技术生成

目录

五 ID3决策树

1 信息熵

2 信息增益

六、C4.5 决策树

1. 信息增益率计算公式

 2. 信息增益率计算举例


 

五 ID3决策树

ID3 决策树 定义:使用信息增益构建的决策树成为 ID3 决策树

1 信息熵

信息熵,代表随机变量不确定度的度量。信息熵越大,不确定性越高,信息熵越小,不确定性越低。

37516695a0694ee591c8c51f049a4988.png

2 信息增益

信息增益,表示由于特征a使得对于数据集D的分类不确定性减少程度,可以理解为贡献。A,对于数据的分类贡献越大。那么信息增益就越大,选择信息增益最大的特征,开始进行划分。

e61e2d5f1e2f4b4e94e528b7cfa7c0e3.png

举例:

d7fe483cc44a4bb0b3a939a24c6b1e0e.png

Step1 计算经验熵

类别一共是两个拒绝/同意,数量分别是6和9,根据熵定义可得:

4a3c7200db2c4306b2bb9e5b52be7f69.png

Step2 各特征的条件熵

将各特征分别记为 \(A_1,A_2,A_3,A_4\) ,分别代表年龄、有无工作、有无房子和信贷情况,那么

 818d3bff68ac4620ac95310005c10a02.png

Step3 计算增益

84c174796eb14becbc171fa0ad0875b1.png 

根据计算所得的信息增益,选取最大的A3作为根节点的特征。它将训练集D划分为两个子集D1(取值为“是”)和 D2(取值为“否”)。由于D1只有同一类的样本点,所以成为一个叶节点,节点标记为“是”。

对于D2,需从剩下的特征A1,A2,A4中选择新的特征。计算各个特征的信息增益。重复step1,step2

 

步骤如下:

  1. 计算每个特征的信息增益
  2. 使用信息增益最大的特征将数据集 S 拆分为子集
  3. 使用该特征(信息增益最大的特征)作为决策树的一个节点
  4. 使用剩余特征对子集重复上述(1,2,3)过程

六、C4.5 决策树

C4.5 决策树 定义: 使用信息增益率构建的决策树成为 C4.5 决策树

1. 信息增益率计算公式

663715700e3a4863bb5e125f2496be9e.png 

  1. Gain_Ratio 表示信息增益率
  2. IV 表示分裂信息、内在信息
  3. 特征的信息增益 ➗ 内在信息
  4. 如果某个特征的特征值种类较多,则其内在信息值就越大。即:特征值种类越多,除以的系数就越大。
  5. 如果某个特征的特征值种类较小,则其内在信息值就越小。即:特征值种类越小,除以的系数就越小。

信息增益比本质: 是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。惩罚参数:数据集D以特征A作为随机变量的熵的倒数。

 2. 信息增益率计算举例

61c39575eda049f39545052a132b3040.png

特征1的信息增益率:

  1. 信息增益:1-0.5408520829727552
  2. 分裂信息:-4/6*math.log(4/6, 2) -2/6*math.log(2/6, 2)=0.9182958340544896
  3. 信息增益率:信息增益/分裂信息=0.5408520829727552/0.9182958340544896=0.5889736868180786

特征2的信息增益率:

  1. 信息增益:1
  2. 分裂信息:-1/6*math.log(1/6, 2) * 6=2.584962500721156
  3. 信息增益率:信息增益/信息熵=1/2.584962500721156=0.38685280723454163

由计算结果可见,特征1的信息增益率大于特征2的信息增益率,根据信息增益率,我们应该选择特征1作为分裂特征。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值