先给出结论:利用信息增益的目的是为了生成最优决策树,方便在测试集预测
首先给出书上信息熵的数学定义:
举一个通俗例子理解这个公式
接下来理解信息增益
书上公式
光看公式很难理解 但是其实并没有新的数学概念知识(理解公式的目的是获取其现实意义和其现实逻辑)
先给出结论:信息增益其实就是系统经过特征选择后(比如该例选择色泽为特征),过度为下个子系统,子系统与上一个系统的信息熵差值的一个量度,当然越大,说明系统不确定性坍缩的越厉害,这正是我们想要的。毕竟信息熵坍缩为0,就能确定做出抉择了。
类比:速度,速度差,加速度对标于,信息熵 信息增益 增益率
举例解释公式字母含义
上书上例子图
解释
同样的道理,计算其它的信息增益 如图
可得纹理信息增益最大,根据上面红字结论,选择纹理来划分为第一个节点是最好的,因为系统不确定度坍缩相比于选择其它属性来说是最厉害的,当然选纹理
再接下来每一步节点选取都这样选,就会获得最优路径,也就是说,按照最优路径走,系统不确定度坍缩最快(步骤少),更利于预测时我们得到结果
增益率
先看书上例子
也就是说,假如将编号也引入的话,实际用这个生成树枝,对我们判断并没有用,因此信息增益有弊端,所以引入增益率,与信息增益并用
如下