树模型-决策树

本文介绍了决策树的基础知识,包括ID3、C4.5和CART算法,以及随机森林、Adaboost、GBDT和XGboost等增强学习模型。详细探讨了决策树的特征选择、建树过程和剪枝策略,如信息增益、基尼指数和最小均方差。此外,还提到了孤立森林在异常检测中的应用。
摘要由CSDN通过智能技术生成

树模型

1、决策树 ID3,C4.5,CART
2、随机森林RF
3、Adaboost
4、GBDT
5、XGboost
6、孤立森林(异常检测)

一、决策树

决策树是一种基本的分类和回归方法,用于分类主要借助每一个叶子节点对应一种属性判定,通过不断的判定导出最终的决策;用于回归则是用均值函数进行多次二分,用子树中数据的均值进行回归。决策树算法中,主要的步骤有:特征选择,建树,剪枝。下面对三种典型的决策树ID3,C4.5,CART进行三个步骤上的对比分析。

优点:

​ 可解释性好,易可视化 ,特征工程中可用特征选择

​ 样本复杂度 O(log(n)) O ( l o g ( n ) ) ,维度灾难

缺点:

​ 易过拟合,学习最优模型N-P难,贪心搜索局部最优

​ 虽然是非线性模型,但不支持异或逻辑

​ 数据不均衡时不适合决策树

​ 决策属性不可逆

一、特征选择

​ 对于决策树而言,每一个非叶子节点都是在进行一次属性的分裂,选择最佳的属性,把不同属性值的样本划分到不同的子树中,不断循环直到叶子节点。其中,如何选择最佳的属性是建树的关键,决策树的一个特征选择的指导思想是熵减思想。常见的选择方式有ID3的信息增益,C4.5的信息增益率,CART的基尼指数,最小均方差。

这里分别介绍这ID3,C4.5,CART决策树的特征选择标准

1) 信息增益

​ 为了清楚的理解信息增益,先了解信息论中信息熵,以及条件熵的概念。熵是一种对随机变量不确定性的度量,不确定性越大,熵越大。

假设离散随机变量 Y Y 的概率分布为 P ( Y ) ,则其熵为:

H(Y)=yP(y)logP(y)=k=1K|Ck||D|log|Ck||D| H ( Y ) = − ∑ y P ( y ) l o g P ( y ) = − ∑ k = 1 K | C k | | D | l o g | C k | | D |

其中熵满足不等式 0H(Y)log|Y| 0 ≤ H ( Y ) ≤ l o g | Y |

在进行特征选择时尽可能的选择在属性 X X 确定的条件下,使得分裂后的子集的不确定性越小越好(各个子集的信息熵和最小),即 P ( Y | X ) 的条件熵最小。

H(Y|X)=x,yP(x,y)log(P(y|x))=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值