数据挖掘十大算法之C4.5决策树

C4.5决策树

C4.5决策树属于分类算法,基于信息增益率来选择样本划分特征,每次根据这个特征将样本划分到不同的集合中。

了解信息增益率

  • 信息增益率=信息增益/分裂信息度量 ,信息增益是ID3分类决策树的划分样本特征,它的缺点在于倾向于选择特征取值多的特征作为划分标准,从信息增益的计算可以看出来(稍后说明),而分裂信息度量等于各种特征的取值所占比例*它的对数之和的负数,因为比例一定小于等于1,所以对数为负,最后要取负。分裂信息度量刚好弥补了倾向于选择特征取值多的缺陷,分裂信息度量随着特征取值多而增大,所以信息增益率会被减少。倾向于选择特征取值多的问题在于可能该特征对类别的影响没有那么大,但是特征取值多,就会造成它被优先作为划分标准。
  • 信息增益=熵-条件熵=类别信息熵-属性信息熵,类别信息熵=类别取值所占比例*它的对数之和的负数,表示划分类别的不确定性,可以看出随着类别而增多,不确定性也会增大。需要的信息量也越大。属性信息熵=(特征的取值所占比例*在这个条件下的类别信息熵 (这里类别信息熵计算不再是基于整体样本的比例,而是基于特征取值所对应的类别个数的比例))之和的负数,表示在该属性的条件下,类别的不确定性,类别越多,不确定性越大。类别信息熵和属性信息熵之差就表示在该属性条件下,类别不确定性减少的程度,减少得更多,就能更快地分类出来。属性信息熵随着特征取值增多而减少,所以信息增益也会增大。这就说明了基于信息增益的ID3决策树更倾向于选择特征取值多的特征作为划分标准。

计算流程

  • 首先选出信息增益率最大的特征作为划分标准,然后剔除该特征之后,再从划分的各个集合中选出信息增益率最大的特征。进一步划分。
  • 不断重复上述流程,直至划分的集合都属于同一类别。
阅读更多
上一篇Python中Numpy基础
下一篇数据挖掘十大算法之k均值聚类算法
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭