机器学习算法总结5:决策树

最新推荐文章于 2021-07-04 17:05:24 发布

小颜学人工智能

最新推荐文章于 2021-07-04 17:05:24 发布

阅读量427

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35946628/article/details/104449067

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

决策树是一种基本的分类与回归方法。在分类问题中，可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树的学习包括3个步骤：特征选择、决策树的生成及决策树的剪枝，常用的算法有ID3，C4.5和CART。
决策树的定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成，结点有两种类型：内部结点和叶结点，内部结点表示一个特征或属性，叶结点表示一个类。
在这里插入图片描述
决策树学习算法是递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。决策树学习的策略是以损失函数为目标函数的最小化。
决策树当预测结果是离散数据时，为分类任务；当预测结果是连续数据时，是回归任务。
当特征空间属性是离散数据时，子结点和父结点不能使用同一个属性；当特征空间属性是连续数据时，子结点和父结点可以使用同一属性。
在这里插入图片描述
决策树的剪枝是为了防止过拟合，提高决策树的泛化能力。决策树的生成对应于模型的局部最优选择，决策树的剪枝对应于模型的全局最优选择。
1.特征选择
特征选择在于选取对训练数据具有分类能力的特征，通常特征选择的准则是信息增益或信息增益比。
信息增益：
熵是表示随机变量不确定性的度量(样本集的混乱程度)。
在这里插入图片描述
定义中的对数以2为底或以e为底(自然对数)，熵的单位分别是比特(bit)或纳特(nat)。熵越大，随机变量的不确定性就越大。
条件熵H(Y|X)表示在已知随即变量X的条件下随机变量Y的不确定性，定义如下：

当熵和条件熵有数据估计(如：极大似然估计)得到时，所对应的的熵与条件熵称为经验熵和检验条件熵。
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
在这里插入图片描述
熵H(Y)与条件熵H(Y|X)之差称为互信息。(注：互信息法特征选择的一种常用方法。)
显然，信息增益大的特征具有更强的分类能力。

信息增益比：
信息增益比为了解决分类问题困难，即当训练数据集的经验熵大的时候，信息增益值会偏大；反之，信息增益值会偏小。
在这里插入图片描述
2.决策树的生成
通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。
ID3算法：
ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。
ID3算法生成的决策树是多叉树。
在这里插入图片描述

注意：ID3分类决策树的停止分裂条件是：设定阈值，若信息增益小于阈值，不在分裂，形成叶子结点。
ID3决策树缺点：
1.不支持连续属性；
2.偏向于取值比较多的属性，由特征选择方法信息增益导致；
3.不支持缺失值的处理；
4.粗暴的应对过拟合的策略：ID3认为相比于规模大的树，规模小的树更好。
针对以上缺点，C4.5的出现解决了以上问题。
C4.5算法：
C4.5在生成过程中，用信息增益比来选择特征。
C4.5算法生成的决策树是多叉树。
在这里插入图片描述
C4.5的特征选择方法信息增益比会偏向取值少的属性。
C4.5中采取二分法来划分连续属性。

当处理连续属性时，使得信息增益最大的划分点作为属性a的最佳划分，然后依次计算其他属性不同划分，进行比较，取信息增益最大的属性及其最佳划分作为最终的最佳属性和最佳划分点。注意：与离散属性不同，若当前结点的划分属性为连续属性时，该属性还可以作为其后代结点的划分属性。
3.决策树的剪枝
在决策树学习中将已生成的树进行简化的过程称为剪枝。具体地，剪枝是从已生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型。
决策树的剪枝通过极小化决策树整体的损失函数或代价函数来实现。
决策树的损失函数：
在这里插入图片描述

参数a>=0是平衡模型拟合训练数据程度以及模型复杂度。

注意：ID3和C4.5的划分点都是特征，所以生成的决策树是多叉树；CART的划分点是特征值，那么，生成的决策树是二叉树。
CART算法：
分类与回归(Classification and regression tree，CART)模型既可以用于分类也可以用于回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法，其生成的决策树是二叉树。
如果待预测类别是离散型数据，则CART生成分类决策树；如果待预测类别是连续数据，则CART生成回归决策树。
决策树的生成就是递归的构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。
(1)回归树的生成
一个回归树对应输入空间(即特征空间)的一个划分以及在划分单元上的输出值。
在这里插入图片描述

利用最小二乘法寻找最优特征j和最优切分点s。

停止分裂条件：
1.计算划分前后误差减少程度，如果减少的值小于某个阈值，则停止分裂；
2.如果结点处的训练样本数小于预设阈值，则停止分裂。
(2)分类树的生成
基尼指数定义如下：
在这里插入图片描述

基尼指数越大，样本集合的不确定性越大(和熵的效果一致)。
基尼指数相比于熵，省略了对数运算，运算量比较小。
CART决策树特征选择阶段，需要遍历所有特征，并遍历特征的所有取值。

算法停止分裂条件：
在这里插入图片描述
剪枝是决策树中常用的解决过拟合的策略。
剪枝有两种策略：预剪枝(pre-pruning)和后剪枝(post-pruning)。
预剪枝操作就是在决策树生成过程中停止分裂的条件，即在每次结点划分前进行估计，若当前结点的划分不能带来决策树泛化能力的提升，停止划分，将当前结点标记为叶结点；
后剪枝是在形成一棵完整的决策树后，对非叶结点进行考察，若将该结点替换成叶结点(修剪其分支)，能够带来泛化能力的提升，则将该结点替换成叶结点。
后剪枝分为：
1.REP-错误率降低剪枝；
2.MEP-最小错误剪枝；
3.CCP-代价复杂度剪枝；
4.PEP-悲观剪枝。
(以上剪枝待学习)决策树讲解视频
CART剪枝：
在这里插入图片描述
决策树的优缺点：

参考博客

小颜学人工智能

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法总结5:决策树

决策树是一种基本的分类与回归方法。在分类问题中，可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。决策树的学习包括3个步骤：特征选择、决策树的生成及决策树的修剪，常用的算法有ID3，C4.5和CART。决策树的定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成，结点有两种类型：内部结点和叶结点，内部结点表示一个特征或属性，叶结...
复制链接

扫一扫

专栏目录