引言
在这篇文章中,我主要介绍一下关于信息增益,并比较ID3、C4.5、C5.0以及CART算法之间的不同,并给出一些细节的实现。最后,我用scikit-learn的决策树拟合了Iris数据集,并生成了最后的决策树图片
信息增益(information gain (IG))
在介绍信息增益之前,我想先介绍3种不纯度的度量手段,它们分别是 Gini index(IG)、entropy(IH)、classification error(IE)
下面,我先介绍熵(entropy)的定义如下:
IH(P)=−∑i=1npi×log(pi)
- P:给定样本下的概率分布P=(p1,p2,p3,…,pn)
假设我们的样本S中只有一个类别,因此我们的概率分布 P=(p1=1),根据上面的熵公式,我们可以求出IH(P)=1∗log(1)=0 ;假设我们的样本S中只有两个相等数量的类别并服从均匀分布,因此我们的概率分布 P=(p1=0.5,p2=0.5),根据上面的熵公式,我