决策树算法梳理

本文深入介绍了决策树的基础,包括信息论中的熵、联合熵、条件熵和信息增益等概念。接着,讨论了ID3、C4.5和CART三种决策树算法及其应用场景,并详细阐述了决策树生成、剪枝过程。此外,还探讨了如何通过参数调整防止过拟合,以及模型评估方法。最后,提到了sklearn库在决策树中的参数设置与Python绘图技巧。
摘要由CSDN通过智能技术生成

1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

信息熵:信息熵是度量样本集合纯度常用的一种指标。

联合熵:联合熵就是度量一个联合分布的随机系统的不确定度。

条件熵:在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。

信息增益:信息增益代表使用属性a带来的纯度提升,信息增益越大,带来的纯度提升越大。计算公式就是父节点的信息熵减去所有子节点的信息熵。

基尼不纯度:从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景决策树的基本步骤:特征选择,决策树生成,决策树剪枝。

决策树生成的过程就是将数据集不断划分成为纯度更高,不确定更小的子集的过程。

ID3算法:ID3的算法计算的是信息增益,缺点是喜欢选择选项多的特征

C4.5算法:在ID3的基础熵增加信息增益率,采用了悲观剪枝,采用了离散化处理连续属性,处理缺失值

CART:采用基尼系数划分数据,同时决定改特征的最优二值切分点,可针对离散和连续型,可以做分类和回归。

3. 回归树原理

建立回归树大致步骤: 将预测变量空间 ( X 1 , X 2 , . . . , X p ) (X_1,X_2,...,X_p) (X

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值