决策树和集成学习(Boosting&Bagging&Stacking)的方法区分

最新推荐文章于 2024-06-16 23:02:21 发布

迷路的咸鱼

最新推荐文章于 2024-06-16 23:02:21 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习系列文章标签：机器学习决策树

本文链接：https://blog.csdn.net/qq_37002417/article/details/106237895

版权

本文详细介绍了决策树、集成学习中的Boosting、Bagging和Stacking方法。决策树作为机器学习的基础，通过信息熵、增益率等指标进行特征选择。Boosting中的AdaBoost和GBDT分别通过调整样本权重和优化残差来提升模型性能。Bagging以随机森林为代表，通过并行训练多个决策树来减少过拟合。Stacking则通过训练多个模型并组合它们的输出来提高预测准确性。集成学习是组合多个弱模型以创建更强的强模型，各方法有其独特优势和应用场景。

摘要由CSDN通过智能技术生成

决策树(Decision Tree)是常见的机器学习方法，可以处理分类和回归问题。用于分类的决策树对比逻辑回归和SVM的区别在于：LR适合处理接近线性可分的分类问题，决策边界是线性的；SVM通过把特征空间映射到核空间使得各个类别线性可分，在高维空间的决策面是线性的，映射回原特征空间的决策边界是非线性的；而DT是基于树形结构来进行决策的，将一个个特征按层次进行划分，可以找到非线性的决策边界。LR和SVM原理可以参考博客《机器学习中的分类器：感知机、逻辑回归、支持向量机》。下图是一个简单的二维特征空间的分类，针对不同分类器的结果：
在这里插入图片描述
（图片来源链接：LR、DT、SVM的对比）

模型发展历史：
在这里插入图片描述

1. 决策树

决策树包含一个根结点、若干个内部结点和若干个叶结点，叶结点对应于决策结果，其他结点表示一个特征或属性。决策树的每一个路径互斥且完备，即每一个样本都被一条路径所覆盖，且只被一条路径所覆盖。决策树的根结点包含所有样本，从根节点到叶结点越往下，样本取某一个值(类别)的可能性越大，到达叶结点的时候这个可能性达到最大，叶结点的样本都属于一类。所以，决策树的学习过程就是产生一棵泛化能力强，可以处理未知样本的决策树。学习过程的伪代码如下，采用自顶向下递归的方法：

可以看到递归划分步骤的停止条件有三个：（1）样本属于同一类别，无需划分；（2）样本的属性相同，无法划分；（3）样本为空，不能划分。决策树学习的关键在于伪代码的第8行，如何选择最优划分属性，即希望随着划分的进行结点包含的样本尽可能属于同一类别，样本要分得足够开，拥有较高的纯度。针对这一问题，衍生了很多决策树算法，如下表：

经典决策树	划分准则
ID3	信息增益（information gain）
C4.5	增益率（gain ratio）
CART	基尼指数（Gini index）

信息熵（对平均不确定性的度量）是度量样本集合纯度最常用的一种指标，回顾信息论与机器学习的关系：

信息熵： $H(X)=-\sum\limits_{x \in X}p(x)logp(x)$
条件熵： $H(X|Y)=-\sum\limits_{x,y}p(x,y)logp(x|y)$
联合熵： $H(X,Y)=-\sum\limits_{x}\sum\limits_{y}p(x,y)logp(x,y)$
互信息： $I(X,Y)=-\sum\limits_{x,y}log\frac{p(x,y)}{p(x)p(y)}$ ，上图的右边用维恩图表示了互信息与熵的关系。

ID3：ID3算法最早是由Quinlan于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。根据信息论的知识，信息增益越大，则使用属性 $a$ 来进行划分所获得的纯度提升越大。如上表的平均互信息即为信息增益，代表了不确定性的减少，所以将具有最大信息增益的属性作为划分结点。设有K个类， $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum\limits_{k=1}^K|C_k|=|D|$ ；上面的伪代码中特征 $A$ 有 $d$ 个属性，设每个属性有n个取值（不同属性的取值个数也不一定相同），根据取值将 $D$ 划分为 $n$ 个子集 $D_i|$ ， $\sum\limits_{i=1}^n|D_i|=|D|$