决策树构建过程:
1、将所有训练数据集放在根节点上;
2、遍历每种属性的每种分割方式,找到最好的分割点;
3、根据2中最好的分割点将根节点分割成多个子节点(大于等于2个);
4、对剩下的样本和属性重复执行步骤2、3,直到每个子节点中的数据都属于同一类为止。
C4.5算法:
C4.5算法是采用信息增益率来进行节点的分裂的,公式为:,
其中, ,
而, ,并且要求信息增益率越大越好。
下面举例具体计算,如下图为各种天气下是否打高尔夫球的表格。
Day | Outlook | Temperature | Humidity | Windy | Play Golf |
1 | Sunny | 85 | 85 | F | N |
2 | Sunny | 80 | 90 | T | N |
3 | Overcast | 83 | 78 | F | Y |
4 | Rainy | 70 | 96 | F | Y |
5 | Rainy | 68 | 80 | F | Y |
6 | Rainy | 65 | 70 | T | N |
7 | Overca |