决策树 C4.5 公式流程
注意! 这里由2种成分组成:属性(年龄、有工作、有自己的房子、信贷情况)和类别组成。
那么:
- 决策类别的信息熵: I n f o ( D ) = ∑ − 每 个 类 别 总 占 比 ∗ ( l o g 2 每 个 类 别 总 占 比 ) Info(D)=\sum - 每个类别总占比 * (log_2每个类别总占比) Info(D)=∑−每个类别总占比∗(log2每个类别总占比) 例如: Info(类别)= -6/15x(log26/15) - 9/15x(log29/15)
- 每个属性的信息熵: I n f o ( a t t r ) = ∑ a t t r 属 性 每 个 分 类 总 占 比 ∗ [ − a t t r 属 性 每 个 分 类 中 每 个 类 别 的 占 比 ] Info(attr) =\sum attr属性每个分类总占比 * [- attr属性每个分类中 每个类别的占比 ] Info(attr)=∑attr属性每个分类总占比∗[−attr属性每个分类中每个类别的占比] 例如:Info(年龄)= 5/15 x (-3/5log23/5 - 2/5log22/5) + 5/15 x (-2/5log22/5 -3/5log23/5) + 5/15 x (-1/5log21/5 - 4/5log24/5)
- 信息增益:Gain(attr) = Info(D)-Info(attr) 例如:Info(类别)-Info(年龄)
- 内在信息(惩罚): H ( a t t r ) = ∑ − a t t r 每 个 分 类 总 占 比 ∗ l o g 2 a t t r 每 个 分 类 总 占 比 H(attr)=\sum - attr每个分类总占比 * log_2attr每个分类总占比 H(attr)=∑−attr每个分类总占比∗log2attr每个分类总占比 例如H(年龄) = -5/15 x log25/15 - 5/15 x log25/15 -5/15 x log25/15
- 信息增益率: IGR(attr) = Gain(attr) / H(attr) 例如:IGR(年龄)=Gain(年龄)/H(年龄)