“信息熵”(information entropy)是度量样本集合纯度的一种常用指标
信息熵计算公式:
其中 为集合中第K类属性所占样本的比例。
Ent(D)的值越小,则D的纯度越高
假定离散属性a有x个可能的取值{a1,a2,…,ax},若使用a来对样本集D进行划分,则会产生x个分支节点,其中第x个分支结点包含了D中所有在属性a上取值为ax的样本,记为Dx。
则根据上述信息熵的计算公式,同样可以计算出Dx的信息熵,再考虑到不同的分支节点所包含的样本数不同,给予分支结点赋予权重|Dx|/|D|,即样本数越多的分支结点的影响就越大,于是可以计算出用属性a对样本集D进行划分所获得的“信息增益”
ID3算法便是使用信息增益为准则来进行属性划分的。
利用以上两个公式我们可以完成决策树的创建。
对于小数据集的模拟: