系统梳理树类型算法原理加常见面试问题
类容按照决策树
、Adaboost
、GBDT
、XGBoost
、LightGBM
顺序进行梳理
本次的重点类容是决策树的CART树
ID3、C4.5介绍请转移到:ID3、C4.5的原理与案例介绍
1. CART树
ID3与C4.5虽然可以通过多叉树尽可能的挖掘特征信息,但是随着数据量的增加,其决策树分支也会大量增多。CART算法的二分法简化了决策树的规模,提高了生成决策树的效率。
1.1 CART分类树实现过程
输入: 训练集D,基尼系数的阈值,切分的最少样本个数阈值
第一步: 决策树生成,基于训练数据集生成尽可能大的决策树;
1) 假设此时节点的数据集为D,总共有 n 个特征;
2) 对第 i (i <= n) 特征进行Gini系数的求解;首先,将 i 特征的数值进行排序(a1,a2,…am),CART取相邻两样本值的平均数做划分点,一共有m-1个,其中第 i 个划分点Ti表示为:Ti = (ai + ai+1)/2
,遍历所有的切分点,小于切分点的数值分到左子树,大于切分点的数值样本分到右子树,计算此时的Cini系数;
3) 遍历完所有特征的全部切分点之后,选择Gini系数最小的特征,将数据集D按照此特征的