决策树原理ID3.C4.5以及实现

最新推荐文章于 2024-07-19 11:07:43 发布

惊鸿罩影

最新推荐文章于 2024-07-19 11:07:43 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sibiantai555/article/details/79950857

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

HUNT算法：

1：如果数据集D中所有的数据都属于一个类，那么将该节点标记为为节点。

2：如果数据集D中包含属于多个类的训练数据，那么选择一个属性将训练数据划分为较小的子集，对于测试条件的每个输出，创建一个子女节点，并根据测试结果将D中的记录分布到子女节点中，然后对每一个子女节点重复1，2过程，对子女的子女依然是递归的调用该算法，直至最后停止。

但是HUNT算法没有说明具体先选择哪一个条件，即哪一个条件对决策的影响比较大

ID3算法

信息熵代表不确定度具体看另一篇文章

https://blog.csdn.net/sibiantai555/article/details/79857688

决策树过程就是要把信息熵不断减小的过程，即在基础信息上获得的越来越多的信息，其不确定一定是下降或不发生变化的。故有了联合熵H(X, Y) = -Σp(x, y) logp(x, y)>=H(X)

从而看有没有增强曾推出的了条件熵如H(X) > H(X｜Y)则说明Y对X是有帮助的，也就是说Y条件对决策是有增益的，故规定

I(X,Y) = H(X) - H(X｜Y) = H(Y) - H(Y｜X)

而

H(X｜Y)=H(X, Y) - H(Y) =

而与联合熵之间的关系是

从信息论知识中我们知道，期望信息越小，信息增益越大，从而纯度越高。“纯”就是尽量让一个分裂子集中待分类项属于同一类别。

栗子（周志华《机器学习》）

正例(好瓜)占 8/17，反例占 9/17 ，根结点的信息熵为

H(D|色泽) = 6/19 +6/19+5/19

= 0.889

I(D,色泽)= 0.998 - 0.889 = 0.109 = Gain（D,色泽）

所以选择纹理

存在问题：

（1）ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现，在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值的比取2个值的信息增益大。

（2）ID3:是有多少个特征就有多少层，故特征越多层数越多，故，信息增益要有一个阈值，如果达到阈值才能增加一层

（3）ID3没有考虑连续特征，比如长度，密度都是连续值

（4）特征缺失值

（5）过拟合问题

或

其中

特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

连续值离散化

n个样本的连续特征A有n个，从小到大排列为a1,a2,...,an，取相邻两样本值的平均数，一共取得m-1个划分点

改造版

首先离散化是简单的二分化（应该也可以分化），而分化比如如何判断硬滑软粘，设本来为一个连续值，测出值大于X为硬滑，否则为软粘，则离散化要做的就是如何确定这个值首先他先确定多少个划分，然后再次划分上使其增益最大即可

缺失值的处理

对于缺失值处理的问题，主要需要解决的是两个问题，一是在样本某些特征缺失的情况下选择划分的属性，二是选定了划分属性，对于在该属性上缺失特征的样本的划分。

对于第一个子问题，对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1）据，然后划分数，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

第二个子问题还是按比例分配

栗子