决策树1- 基本概念
决策树
上图来自西瓜书,是决策树的一种树形。生成决策树的过程,不断的根据样本的属性( 样本的某个特征 )划分样本子集。每个结点选择当前最优的属性作为划分依据,将样本集合不断的划分成更小的子集合,直到子集合中样本类别一致时或者没有可以划分的属性值时,则停止划分,标记为叶结点(叶节点代表一个类别)。
简单的介绍一下决策树的组成元素:
- 根节点: 所有的训练样本
- 内部节点: 对应某一个划分属性
- 叶节点: 对应某一种决策结果
- 判定测试序列: 某个样本在节点中传递的路径
所有节点都包含着不同数量的样本。
以上是分类树的例子,决策树也可以用作回归任务,如CART算法。决策树是GBDT,Xgboost等更高级结构的基础,所以尽量要掌握决策树的原理。
决策树算法的基本流程
假设有一个数据集,其中的每个样本有多种特征,每个特征有不同的取值。通过这个数据集来生成一个决策树的一般流程可以归纳为:
- 特征选择 </