决策树和集成学习(Boosting&Bagging&Stacking)的方法区分

本文详细介绍了决策树、集成学习中的Boosting、Bagging和Stacking方法。决策树作为机器学习的基础,通过信息熵、增益率等指标进行特征选择。Boosting中的AdaBoost和GBDT分别通过调整样本权重和优化残差来提升模型性能。Bagging以随机森林为代表,通过并行训练多个决策树来减少过拟合。Stacking则通过训练多个模型并组合它们的输出来提高预测准确性。集成学习是组合多个弱模型以创建更强的强模型,各方法有其独特优势和应用场景。
摘要由CSDN通过智能技术生成

  决策树(Decision Tree)是常见的机器学习方法,可以处理分类和回归问题。用于分类的决策树对比逻辑回归和SVM的区别在于:LR适合处理接近线性可分的分类问题,决策边界是线性的;SVM通过把特征空间映射到核空间使得各个类别线性可分,在高维空间的决策面是线性的,映射回原特征空间的决策边界是非线性的;而DT是基于树形结构来进行决策的,将一个个特征按层次进行划分,可以找到非线性的决策边界。LR和SVM原理可以参考博客《机器学习中的分类器:感知机、逻辑回归、支持向量机》。下图是一个简单的二维特征空间的分类,针对不同分类器的结果:
在这里插入图片描述
(图片来源链接:LR、DT、SVM的对比

模型发展历史
在这里插入图片描述

1. 决策树

  决策树包含一个根结点、若干个内部结点和若干个叶结点,叶结点对应于决策结果,其他结点表示一个特征或属性。决策树的每一个路径互斥且完备,即每一个样本都被一条路径所覆盖,且只被一条路径所覆盖。决策树的根结点包含所有样本,从根节点到叶结点越往下,样本取某一个值(类别)的可能性越大,到达叶结点的时候这个可能性达到最大,叶结点的样本都属于一类。所以,决策树的学习过程就是产生一棵泛化能力强,可以处理未知样本的决策树。学习过程的伪代码如下,采用自顶向下递归的方法:

  可以看到递归划分步骤的停止条件有三个:(1)样本属于同一类别,无需划分;(2)样本的属性相同,无法划分;(3)样本为空,不能划分。决策树学习的关键在于伪代码的第8行,如何选择最优划分属性,即希望随着划分的进行结点包含的样本尽可能属于同一类别,样本要分得足够开,拥有较高的纯度。针对这一问题,衍生了很多决策树算法,如下表:

经典决策树 划分准则
ID3 信息增益(information gain)
C4.5 增益率(gain ratio)
CART 基尼指数(Gini index)

信息熵(对平均不确定性的度量)是度量样本集合纯度最常用的一种指标,回顾信息论与机器学习的关系:

信息熵: H ( X ) = − ∑ x ∈ X p ( x ) l o g p ( x ) H(X)=-\sum\limits_{x \in X}p(x)logp(x) H(X)=xXp(x)logp(x)
条件熵: H ( X ∣ Y ) = − ∑ x , y p ( x , y ) l o g p ( x ∣ y ) H(X|Y)=-\sum\limits_{x,y}p(x,y)logp(x|y) H(XY)=x,yp(x,y)logp(xy)
联合熵: H ( X , Y ) = − ∑ x ∑ y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum\limits_{x}\sum\limits_{y}p(x,y)logp(x,y) H(X,Y)=xyp(x,y)logp(x,y)
互信息: I ( X , Y ) = − ∑ x , y l o g p ( x , y ) p ( x ) p ( y ) I(X,Y)=-\sum\limits_{x,y}log\frac{p(x,y)}{p(x)p(y)} I(X,Y)=x,ylogp(x)p(y)p(x,y),上图的右边用维恩图表示了互信息与熵的关系。

  • ID3:ID3算法最早是由Quinlan于1975年在悉尼大学提出的一种分类预测算法,算法的核心是“信息熵”。根据信息论的知识,信息增益越大,则使用属性 a a a 来进行划分所获得的纯度提升越大。如上表的平均互信息即为信息增益,代表了不确定性的减少,所以将具有最大信息增益的属性作为划分结点。设有K个类, ∣ C k ∣ |C_k| Ck为属于类 C k C_k Ck的样本个数, ∑ k = 1 K ∣ C k ∣ = ∣ D ∣ \sum\limits_{k=1}^K|C_k|=|D| k=1KCk=D;上面的伪代码中特征 A A A d d d个属性,设每个属性有n个取值(不同属性的取值个数也不一定相同),根据取值将 D D D划分为 n n n个子集 ∣ D i ∣ |D_i| Di ∑ i = 1 n ∣ D i ∣ = ∣ D ∣ \sum\limits_{i=1}^n|D_i|=|D| i=1nDi=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值