目录
五 ID3决策树
ID3 决策树 定义:使用信息增益构建的决策树成为 ID3 决策树
1 信息熵
信息熵,代表随机变量不确定度的度量。信息熵越大,不确定性越高,信息熵越小,不确定性越低。
2 信息增益
信息增益,表示由于特征a使得对于数据集D的分类不确定性减少程度,可以理解为贡献。A,对于数据的分类贡献越大。那么信息增益就越大,选择信息增益最大的特征,开始进行划分。
举例:
Step1 计算经验熵
类别一共是两个拒绝/同意,数量分别是6和9,根据熵定义可得:
Step2 各特征的条件熵
将各特征分别记为 \(A_1,A_2,A_3,A_4\) ,分别代表年龄、有无工作、有无房子和信贷情况,那么
Step3 计算增益
根据计算所得的信息增益,选取最大的A3作为根节点的特征。它将训练集D划分为两个子集D1(取值为“是”)和 D2(取值为“否”)。由于D1只有同一类的样本点,所以成为一个叶节点,节点标记为“是”。
对于D2,需从剩下的特征A1,A2,A4中选择新的特征。计算各个特征的信息增益。重复step1,step2
步骤如下:
- 计算每个特征的信息增益
- 使用信息增益最大的特征将数据集 S 拆分为子集
- 使用该特征(信息增益最大的特征)作为决策树的一个节点
- 使用剩余特征对子集重复上述(1,2,3)过程
六、C4.5 决策树
C4.5 决策树 定义: 使用信息增益率构建的决策树成为 C4.5 决策树
1. 信息增益率计算公式
- Gain_Ratio 表示信息增益率
- IV 表示分裂信息、内在信息
- 特征的信息增益 ➗ 内在信息
- 如果某个特征的特征值种类较多,则其内在信息值就越大。即:特征值种类越多,除以的系数就越大。
- 如果某个特征的特征值种类较小,则其内在信息值就越小。即:特征值种类越小,除以的系数就越小。
信息增益比本质: 是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。惩罚参数:数据集D以特征A作为随机变量的熵的倒数。
2. 信息增益率计算举例
特征1的信息增益率:
- 信息增益:1-
0.5408520829727552
- 分裂信息:
-4/6*math.log(4/6, 2) -2/6*math.log(2/6, 2)=0.9182958340544896
- 信息增益率:
信息增益/分裂信息=0.5408520829727552/0.9182958340544896=0.5889736868180786
特征2的信息增益率:
- 信息增益:1
- 分裂信息:
-1/6*math.log(1/6, 2) * 6=2.584962500721156
- 信息增益率:
信息增益/信息熵=1/2.584962500721156=0.38685280723454163
由计算结果可见,特征1的信息增益率大于特征2的信息增益率,根据信息增益率,我们应该选择特征1作为分裂特征。