定义5.3(信息增益比)特征A对训练数据集D的信息增益比定义为其信息增益与训练数据集D关于特征A的值的熵之比,即
其中,,n是特征A的取值个数。(书本原定义)
习题5.1:根据表5.2所表示的训练数据集,利用信息增益比(C4.5算法)生成决策树。
由题意知:
由于的信息增益比最大,所以选择特征作为根节点的特征,得到
D1只有同一类的样本点。
对于D2再计算信息增益比得
选择特征A2作为D2的根节点
该决策树只用了两个特征!与书本的例题相一致。