《统计学习方法》五：手推“决策树”

最新推荐文章于 2024-05-03 23:41:06 发布

nbszg

最新推荐文章于 2024-05-03 23:41:06 发布

阅读量738

点赞数

分类专栏：机器学习数学文章标签：决策树剪枝机器学习统计学统计模型

本文链接：https://blog.csdn.net/u011517132/article/details/104051717

版权

机器学习同时被 2 个专栏收录

21 篇文章 4 订阅

订阅专栏

数学

19 篇文章 8 订阅

订阅专栏

第四章决策树

决策树是一种基本的分类与回归方法，可以认为是if-then的集合。常用的决策树算法有ID3和C4.5以及CART

5.1.决策树模型与学习
5.1.1.决策树模型
决策树定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型。内部结点和叶结点，内部节点表示属性，即建模使用特征。叶节点是一个类，即标签。决策树将一个实例在树上进行查找，最后将实例分到结点的类中。
在这里插入图片描述
5.1.2.决策树与if-then规则
决策树可以看成一个if-then的规则集合。决策树的路径逾期对应的if-then规则集合具有一个重要的性质：互斥并且完备。即每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径覆盖。
5.1.3.决策树与条件概率分布
决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元。每一个单元就定义了一个类的条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下的条件概率分布组成。各个叶结点上的条件概率往往偏向某一个类，即属于某一个类的概率较大，决策树分类时就将该结点的实例强行分类到条件概率大的那一类去。（极大似然估计的思想）
5.1.4.决策树学习
决策数的学习本质上是从训练集中归纳出一组分类规则。可能有多组分类规则都适用。我们应该选择预测能力强且对训练集有很好的拟合的一组规则。
决策树的损失函数通常是正则化的极大似然函数。决策树学习的策略是以随时函数为目标函数的最小化。
决策树学习的算法通常是递归的选择最优特征。通常根据信息增益（ID3算法）、信息增益比（C4.5算法）、基尼系数（CATR算法）等指标选择最优的特征。
为了提高决策树的预测能力，需要对已生成的树进行自上而下的剪枝，来提高决策树的泛化能力。
5.2.特征选择
5.2.1.特征选择问题
特征选择是在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。通常特征选择的准测试信息增益或信息增益比。
5.2.2.信息增益
在这里插入图片描述
5.2.3.信息增益比
上面的信息增益的大小是相对于训练集而言的。没有绝对意义。当训练集的经验熵打的时候，信息增益值会偏大。反之，信息增益值会偏小。使用信息增益比可对这一问题进行校正。信息增益比是信息增益与经验熵的比值。
在这里插入图片描述

5.3.决策树的生成
5.3.1. ID3算法
ID3算法是在决策树的各个节点应用信息增益准则选择特征，递归的构建决策树。ID3相当于用极大似然法进行概率模型的选择。
在这里插入图片描述
5.3.1. C4.5算法
C4.5算法与上面ID3算法流程一致，但使用了信息增益比来选择特征进行改进

5.4.决策树的剪枝
在决策树学习过程中将已生成的树进行简化的过程称为剪枝。可以视为对决策树模型的复杂程度进行惩罚。衡量树的复杂程度可用结点数量、树的深度等等。
决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数实现。
在这里插入图片描述

5.5.CART算法
CART决策树可用于分类与回归。CART同样由特征选择。树的生成以及剪枝组成。当分类问题时，CART决策树是二叉树。内部结点特征的取值为“是”和“否”。左分支为“是”的分支，右分支为“否”的分支。CART算法由以下两步组成：
（1）决策树的生成：生成的决策树要尽量大
（2）决策树的剪枝：类似上面的决策树剪枝
5.5.1. CART生成
CART生成分为回归树的生成和分类树的生成：
CART回归树的生成
在这里插入图片描述
CART分类树生成
5.5.1. CART剪枝