决策树
浅浅阅读了西瓜书和南瓜书第四章,总结了以下几点。
- 决策树,本质上就是依据属性值判定分类,决策树机器学习的目的是为了产生一个泛化能力更强的决策树。
- 决策树学习的关键是如何选择最优划分属性,以此保证该属性下的样本尽可能属于同一类别,即纯度越来越高。
- 度量样本集合纯度最常用的一种指标是“信息熵”,由信息熵计算出“信息增益”,信息增益越大,表明使用该属性进行划分的纯度越大,但是,信息增益存在弊端,我们常用“增益率”来选择最优划分属性。
- 剪枝是为了应对“过拟合”问题,基本策略是“预剪枝”和“后剪枝”,预剪枝是对每个结点在划分前先进行估计,后剪枝是在决策树生成之后,自底向上地对非叶节点进行考察。
- 决策树不仅适用于离散属性,也适用于连续属性,最简单的策略是采用二分法处理连续属性。
- 决策树的每个属性可以看作是一个坐标轴,决策树又可看作是找到不同样本之间的边界。多变量决策树,是对属性的线性组合进行测试,而不再仅仅是某个属性。