1、信息熵——度量样本集合纯度
关于定义(根据B站UP致敬大神总结)以二分类任务为例(抛硬币)
1个硬币——2种情况(正、反)
2个硬币——4种情况(正反、正正、反正、反反)
3个硬币——8种情况
.....
n种情况—— 种情况
推导公式4.1(将一般分布看作等概率分布,A、B、C事件概率不同)
2、信息增益——对信息进行量化
对于一个选择题,选项A、B、C、D,在不知道任何信息的情况下,每个选项正确的概率是1/4,此时计算信息熵为2。然后,在得知C选项正确的概率为1/2后,其余选项正确概率为1/6,此时计算信息熵为1.79。因此,“C选项正确的概率为1/2”这个信息就被量化了,2-1.79=0.21。
3、增益率
信息增益对可取值数目多的属性有所偏好,因此C4.5决策树算法使用增益率来选择最优划分属性。
4、基尼指数
基尼值越小,数据集的纯度越高。基尼指数是基尼值的加权平均,选择使划分后基尼指数最小的属性作为最优划分属性。
5、剪枝处理
(1)预剪枝——对划分前后的泛化性能进行估计(利用验证集)
结点是否能被划分,取决于假设划分后的精度是否有提高。
(2)后剪枝——从叶结点开始回溯
将结点领衔的子树替换为叶结点,计算验证集精度