1、 C4.5继承了ID3的优点,并改进了:(1)使用信息增益率来选择属性,克服了用信息增益选择属性时偏向值多的不足;(2)在构树过程中进行剪枝;(3)能够完成对连续属性的离散化处理;(4)能够对不完整数据进行处理;
2、 信息增益、信息增益率、Gini这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info Gain)用于ID3,Gini用于CART,信息增益率(Info Gain Ratio)用于C4.5。
3、 下面举例说明信息增益和信息增益率的计算:
天气预报数据集例子
Outlook |
Temperature |
Humidity |
Windy |
Play? |
sunny |
hot |
high |
false |
no |
sunny |
hot |
high |
true |
no |
overcast |
hot |
high |
false |
yes |
rain |
mild |
high |
false |
yes |
rain |
cool |
normal |
false |
yes |
rain |
cool |
normal |
true |
no |
overcast |
cool |
normal |
true |