定义信息熵:
,其中为第k个样本占比,D为样本集。
定义信息增益:
,其中V为分支节点,a为属性。
使用举例(书上的例子):
编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜
1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是
2 乌黑 蜡缩 沉闷 清晰 凹陷 硬滑 是
3 乌黑 蜡缩 1虫响 清晰 凹陷 硬滑 是
4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 是
5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 是
6 青绿 稍蜷 浊响 清晰 稍凹 软粘 是
7 乌黑 稍蜷 浊日向 稍糊 稍凹 软粘 是
8 乌黑 稍蜷 独日向 清晰 稍凹 硬滑 是
9 乌黑 稍蜷 祝闷 硝糊 稍凹 硬滑 否
10 青绿 硬挺 清脆 清晰 平坦 软粘 否
11 洁白 硬挺 清脆 模糊 平坦 硬滑 否
12 洁白 蜷缩 浊响 模糊 平坦 软粘 否
13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否
14 浅白 稍蜷 沉闷 稍糊 凹陷 硬情 否
15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 否
16 践自 蜷缩 浊响 模糊 平坦 硬滑 否
17 青绿 蜡缩 沉闷 稍糊 稍凹 硬滑 否
我们用色泽进行分类,可以分为三类青绿,乌黑,浅白。
{1, 4, 6, 10, 13, 17}
{2, 3, 7, 8, 9, 15}
{5, 11, 12, 14, 16}
通过对比可知,为样本中的比例,什么比例?这个例子中就是好瓜与怀瓜的比例,各有三个,故为3/6、
同理有。
D的信息熵可以按照公式计算。
我们计算每一个属性的信息增益,将其作为节点在进行分支。