李航统计学习方法----决策树章节学习笔记以及python代码

詹sir的BLOG

已于 2022-07-05 12:05:47 修改

阅读量703

点赞数

文章标签：大数据 python 决策树算法剪枝

于 2022-07-04 23:46:21 首次发布

本文链接：https://blog.csdn.net/kafei110/article/details/125585665

版权

5 CART算法（classification and regression tree）

决策树算法可以应用于分类问题与回归问题，李航的书中主要讲解的是分类树，构建决策树分为三个过程，分别是特征选择、决策树生成、决策树剪枝以及CART算法。

1 决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构．决策树由结点(node)和有向边(directed edge）组成结点有两种类型：内部结点（internal node）和叶结点（leaf node)、内部结点表示一个特征或属性，叶结点表示一个类。

决策树可以认为是if-then规则的集合，可以将决策树转化为if-then的规则，最终所有的样本实例都会被决策树所覆盖，在书写决策树代码的过程中就可以用if语句去构建决策树，决策树本质上就是针对数据集的一套分类规则。

假设输入的数据集为D，实例x是n维列向量，y是数据的标注。

$D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，

$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$

$y_{i} \in\{1,2, \cdots, K\}$

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。在构建决策树的过程中可以进行特征选择，但是决策树可能会出现过拟合的现象，因此要进行决策树的剪枝。