决策树1- 基本概念

最新推荐文章于 2023-06-20 17:11:32 发布

elgong

最新推荐文章于 2023-06-20 17:11:32 发布

阅读量640

点赞数 1

分类专栏：机器学习文章标签：决策树

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

决策树-1基本概念

决策树

上图来自西瓜书，是决策树的一种树形。生成决策树的过程，不断的根据样本的属性( 样本的某个特 )划分样本子集。每个结点选择当前最优的属性作为划分依据，将样本集合不断的划分成更小的子集合，直到子集合中样本类别一致时或者没有可以划分的属性值时，则停止划分，标记为叶结点(叶节点代表一个类别)。

简单的介绍一下决策树的组成元素:

根节点: 所有的训练样本
内部节点: 对应某一个划分属性
叶节点：对应某一种决策结果
判定测试序列：某个样本在节点中传递的路径

所有节点都包含着不同数量的样本。

以上是分类树的例子，决策树也可以用作回归任务，如CART算法。决策树是GBDT,Xgboost等更高级结构的基础，所以尽量要掌握决策树的原理。

决策树算法的基本流程

假设有一个数据集，其中的每个样本有多种特征，每个特征有不同的取值。通过这个数据集来生成一个决策树的一般流程可以归纳为:

特征选择

特征选择就是决策树分叉时，依据新节点的"纯度"，选择最优的划分属性;

决策树生成

树不断的分叉，直到样本的属性用光，或者树的深度达到了预定值，则结束分叉;

剪枝

如果一直树杈分下去，一定能够使得所有的样本都正确的归类，但这样会产生对训练集的过拟合，泛化能力变差，可以通过剪枝操作来改善泛化能力。

通过这三步，就可以生成一颗决策树了。下面来学习一下具体怎么进行特征的选择和剪枝。

如何选择最优的划分属性?

决策树不断分叉的原因，是尽可能的让不同类别的样本划分到不同的节点，同类别的样本划分到同一个节点。而选择最优的划分属性（特征）的过程，相当于是遍历计算出所有特征的结果，找到能使分叉后子集合最 “纯” 的特征，就是最优的划分属性了。
所以，该如何定义 “纯” ，需要借助信息论中 “信息熵” 的概念了。

熵 : 表示随机变量不确定性的度量,也就是混乱程度的一种度量。

假定数据集 D 中第 K 类样本所占的比例为 $p_{k}$ ,则信息熵定义为:

$\operatorname{Ent}(D)=-\sum_{k=1}^{N} p_{k} \log _{2} p_{k}$

数据集包含的类别越少时越纯，Ent(D)也越小。

法1: 信息增益

ID3算法用到信息增益

直白的讲就是决策树分叉前的信息熵减去分叉后的信息熵。

信息增益最大的特征就是最佳划分属性。

假定分叉前样本集 D 中的特征 a 有 V个可能的取值 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ ,当选择 a 做划分属性时，会分V个节点，每个节点上的子样本集合为 $D^{v}$ ,同时为不同节点赋权重(按照样本的比例)，于是信息增益为: