数据挖掘十大算法之C4.5决策树

最新推荐文章于 2023-02-23 21:56:31 发布

alittlebirdsd

最新推荐文章于 2023-02-23 21:56:31 发布

阅读量414

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/alittlebirdsd/article/details/79971799

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

C4.5决策树

C4.5决策树属于分类算法，基于信息增益率来选择样本划分特征，每次根据这个特征将样本划分到不同的集合中。

了解信息增益率

信息增益率=信息增益/分裂信息度量，信息增益是ID3分类决策树的划分样本特征，它的缺点在于倾向于选择特征取值多的特征作为划分标准，从信息增益的计算可以看出来（稍后说明），而分裂信息度量等于各种特征的取值所占比例*它的对数之和的负数，因为比例一定小于等于1，所以对数为负，最后要取负。分裂信息度量刚好弥补了倾向于选择特征取值多的缺陷，分裂信息度量随着特征取值多而增大，所以信息增益率会被减少。倾向于选择特征取值多的问题在于可能该特征对类别的影响没有那么大，但是特征取值多，就会造成它被优先作为划分标准。
信息增益=熵-条件熵=类别信息熵-属性信息熵，类别信息熵=类别取值所占比例*它的对数之和的负数，表示划分类别的不确定性，可以看出随着类别而增多，不确定性也会增大。需要的信息量也越大。属性信息熵=（特征的取值所占比例*在这个条件下的类别信息熵 (这里类别信息熵计算不再是基于整体样本的比例，而是基于特征取值所对应的类别个数的比例)）之和的负数，表示在该属性的条件下，类别的不确定性，类别越多，不确定性越大。类别信息熵和属性信息熵之差就表示在该属性条件下，类别不确定性减少的程度，减少得更多，就能更快地分类出来。属性信息熵随着特征取值增多而减少，所以信息增益也会增大。这就说明了基于信息增益的ID3决策树更倾向于选择特征取值多的特征作为划分标准。