第四章
4.1 算法原理
相当于在生成树,树的叶子节点代表了一个预测类别
4.2 为什么使用信息熵作为纯度判断标尺
信息熵用于对类别y作随机变量,将“不确定性”转换理解为集合内样本的“纯度”
信息熵
当X越大,即p(x) = 变量取值分之一,不确定性最大,即样本的纯度最低
4.3 如何优化使模型结果更好?
划分选择:
1、使用信息增益
- 选择属性之后的信息增益最大的属性值
2、使用增益率
- 对信息增益的改进,但存在对取值数目较少的属性的偏好
3、使用基尼指数
- 反应随机两个样本之间的不一致的概率,在实际操作中,用二叉树判断属性的基尼指数
- 即将D对属性a每个可能的取值v,将D分成a = v 和a != v,计算基尼指数。
4.4 剪枝处理
用于防止过拟合
方法:
- 预剪枝
- 后剪枝
4.5 连续值的处理
二分法处理后选取划分点