算法强化 —— 决策树

最新推荐文章于 2022-04-21 19:13:43 发布

TongYixuan_LUT

最新推荐文章于 2022-04-21 19:13:43 发布

阅读量417

点赞数

分类专栏：算法强化文章标签：算法剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33357094/article/details/104722880

版权

本文详细介绍了决策树的基本原理，包括ID3、C4.5和CART算法，重点阐述了信息熵、信息增益、信息增益比和Gini系数等关键概念。此外，还探讨了决策树的剪枝方法，包括预剪枝和后剪枝，以防止过拟合，提高模型的泛化能力。

摘要由CSDN通过智能技术生成

决策树

原理

顾名思义，决策树就是用一棵树来表示我们的整个决策过程。这棵树可以使二叉树(CART只能是二叉树),也可以使多叉树(ID3,C4.5 可以是多叉树或二叉树)
根节点包含整个样本集，每个叶节点都对应一个决策结果(注意，不同的叶节点可能对应同一个决策结果)，每一个内部节点都对应一次决策过程或者说是一次属性测试。
从根节点到每个叶子节点的路径对应一个判定测试序列。
决策树的生成就是不断的选择最优的特征对训练集进行划分，是一个递归的过程,递归返回的条件有三种：
1.当前节点包含的样本属于同一类别，无需划分
2.当前属性集为空，或所有样本在属性集上取值相同，无法划分
3.当前节点包含样本集合为空，无法划分

ID3使用信息增益作为选择特征的准则；C4.5使用信息增益比作为选择特征的准则；CART使用Gini指数作为选择特征的准则

ID3

熵表示的是数据中包含的信息量大小。熵越小，数据的纯度越高，也就是说数据越趋于一致，这是我们希望的划分之后每个子节点的样子
信息增益 = 划分前熵 - 划分后熵。信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是说，用属性a来划分训练集，得到的结果中纯度比较高。
ID3仅仅能够处理离散属性。

信息熵：

$H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$

条件熵：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法强化 —— 决策树

决策树原理顾名思义，决策树就是用一棵树来表示我们的整个决策过程。这棵树可以使二叉树(CART只能是二叉树),也可以使多叉树(ID3,C4.5 可以是多叉树或二叉树)根节点包含整个样本集，每个叶节点都对应一个决策结果(注意，不同的叶节点可能对应同一个决策结果)，每一个内部节点都对应一次决策过程或者说是一次属性测试。从根节点到每个叶子节点的路径对应一个判定测试序列。决策树的生成就是不断的选择...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。