# C4.5

## 决策树构建分析

1. 解决了信息增益（IG）的缺点
2. 解决了连续变量问题

### IG 的缺点及解决方案

IGR=IGIV
(其中，IG 为信息增益，IV 为分裂信息)
IV=ip(vi)log2p(vi)
(其中，vi${v_i}$ 为某一特征属性下的第 i 个分支属性)

## 训练数据集

Day OutLook Temperature Humidity Wind PlayGolf
1 Sunny 85 85 False No
2 Sunny 80 90 True No
3 Overcast 83 78 False Yes
4 Rainy 70 96 False Yes
5 Rainy 68 80 False Yes
6 Rainy 65 70 True No
7 Overcast 64 65 True Yes
8 Sunny 72 95 False No
9 Sunny 69 70 False Yes
10 Rainy 75 80 False Yes
11 Sunny 75 70 True Yes
12 Overcast 72 90 True Yes
13 Overcast 81 75 False Yes
14 Rainy 71 80 True No

## 计算步骤

### IV(T) & IGR(T)

Sunny Overcast Rainy

IV(OutLook)=514log2514414log2414514log2514=1.577406${IV(OutLook) = -\frac{5}{14}log_2{\frac{5}{14}} - \frac{4}{14}log_2{\frac{4}{14}} - \frac{5}{14}log_2{\frac{5}{14}} = 1.577406}$

IGR(OutLook)=IGIV=0.246751.577406=0.156428${IGR(OutLook) = \frac{IG}{IV} = \frac{0.24675}{1.577406} = 0.156428}$

### 连续变量的域值

[[64, Yes], [65, No], [68, Yes], [69, Yes], [70, Yes], [71, No], [72, No], [72, Yes], [75, Yes], [75, Yes], [80, No], [81, Yes], [83, Yes], [85, No]]

IV(v4)=IV([4,1],[5,4])=514IV([4,1])+914IV([5,4])${IV(v_4) = IV([4, 1], [5, 4]) = \frac{5}{14}{IV([4, 1])} + \frac{9}{14}{IV([5, 4])}}$
IV(v4)=514(45log24515log215)+914(59log25949log249)=0.89${IV(v_4) = \frac{5}{14}{(-\frac{4}{5}log_2\frac{4}{5} - \frac{1}{5}log_2\frac{1}{5})} + \frac{9}{14}{(-\frac{5}{9}log_2\frac{5}{9} - \frac{4}{9}log_2\frac{4}{9})} = 0.89}$