1. 决策树是什么?
决策树算法是机器学习中最经典的算法之一。大家可能听过一些高深的算法,例如在竞赛中经常使用的Xgboost、各种集成算法等,他们都是基于树模型来建立的,所以掌握那些模型,首先我们需要掌握决策树。
树:有一个根节点,由根结点开始,不断的扩展,最终到达叶子结点,叶子结点就是最终的点,后面就无法扩展了。(相关数据结构可以自行补齐)
决策树的原理和搜索二叉树的原理差不多,从根结点开始,每次经过一个结点,都需要判断走左边还是右边,最终目标结点,那么达到目标结点的过程就是决策的过程。
根节点:数据的聚集地,第一次划分数据集的地方
非叶子节点与分支:代表中间过程的每个节点
叶子节点:数据最终的决策结果。
1.1. 决策树算法及其区别
常用的决策树算法有ID3,C4.5,CART。
决策树算法 | 启发函数 | 描述 |
ID3 | 最大信息增益 | |
C4.5 | 最大信息增益比 | |
CART | 最大基尼系数(Gini) | CART在每次迭代中选择基尼系数最小的特征及其对应的切分点。 |
1.2. 决策树如何防止过拟合?[1]
完全生长的决策树会面临过拟合的问题。完全生长的决策树所对