在这一部分,讲述了决策树的基本模型,涉及到建立决策树、剪枝二叉树以及其他问题。
4.1 基本流程
4.2 划分选择
信息增益,信息增益率,GINI系数
4.3 剪枝处理
预剪枝,后剪枝
4.4 连续与缺失值
对于连续可以选择某一点进行01划分,对于缺失值可以根据属性的缺失情况而非样本来进行划分。
4.5 多变量决策
使用特征组合来划分决策树
这部分来看,信息增益、信息增益率和GINI系数作为划分原则是比较重点的部分。而CART回归决策树涉及到了之后GBDT的应用,也应该多加注意。