算法强化 —— 决策树

本文详细介绍了决策树的基本原理,包括ID3、C4.5和CART算法,重点阐述了信息熵、信息增益、信息增益比和Gini系数等关键概念。此外,还探讨了决策树的剪枝方法,包括预剪枝和后剪枝,以防止过拟合,提高模型的泛化能力。
摘要由CSDN通过智能技术生成

决策树

原理

顾名思义,决策树就是用一棵树来表示我们的整个决策过程。这棵树可以使二叉树(CART只能是二叉树),也可以使多叉树(ID3,C4.5 可以是多叉树或二叉树)
根节点包含整个样本集,每个叶节点都对应一个决策结果(注意,不同的叶节点可能对应同一个决策结果),每一个内部节点都对应一次决策过程或者说是一次属性测试。
从根节点到每个叶子节点的路径对应一个判定测试序列。
决策树的生成就是不断的选择最优的特征对训练集进行划分,是一个递归的过程,递归返回的条件有三种:
1.当前节点包含的样本属于同一类别,无需划分
2.当前属性集为空,或所有样本在属性集上取值相同,无法划分
3.当前节点包含样本集合为空,无法划分

ID3使用信息增益作为选择特征的准则;C4.5使用信息增益比作为选择特征的准则;CART使用Gini指数作为选择特征的准则

ID3

熵表示的是数据中包含的信息量大小。熵越小,数据的纯度越高,也就是说数据越趋于一致,这是我们希望的划分之后每个子节点的样子
信息增益 = 划分前熵 - 划分后熵。信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是说,用属性a来划分训练集,得到的结果中纯度比较高。
ID3仅仅能够处理离散属性。

信息熵:

H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ⁡ 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|} H(D)=k=1KDCklog2DCk

条件熵:

H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ D ∣ H ( D i ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ( − ∑ k = 1 k ∣ D i k ∣ ∣ D

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值