4.1基本流程
基本思路:分而治之
导致递归返回的三种情形:
(1) 当前节点样本属于同一类别,无需划分;
(2) 当前属性集为空,或所有样本属性值相同,无法划分;
(3) 当前节点包含的样本集合为空,不能划分。
4.2划分选择
ID3决策树算法:以信息增益为准则
CART决策树:以“基尼指数”为准则
C4.5决策树算法:以信息增益的权重为准则,采用二分法对连续属性进行处理
多变量决策树:属性的线性组合,OC1,寻找每个属性的最有权值,局部优化再对分类边界随机扰动。
4.3剪枝处理
预剪枝:对划分前后的泛化性能进行估计,具有欠拟合风险;
后剪枝:欠拟合风险小,泛化性能较优,训练时间较长;
连续值处理:二分法
缺失值处理:赋予权重
多变量决策树:对属性进行线性组合
OC1:局部优化的基础上再对分类边界进行随机扰动
感知机树:结合决策树和神经网络
增量学习:ID4、ID5R、ITI等
随机森林算法:多棵树木组成森林,随机挑选树木,根据结果判断是为随机森林。
包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。
构建随机森林:数据的随机性选取,以及待选特征的随机选取。
首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。最后,如果有了新的数据需要通过随机森林得到分类结果,就可以通过对子决策树的判断结果的投票,得到随机森林的输出结果了。
与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能。