【西瓜书学习】决策树

Enzo 想砸电脑

已于 2022-12-19 00:16:33 修改

阅读量521

点赞数

文章标签：决策树学习

于 2022-07-20 14:54:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37804469/article/details/125578554

版权

深度学习基础专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文深入探讨了决策树算法的核心概念，包括信息熵用于衡量样本纯度，信息增益作为属性选择的标准，以及CART算法中采用的基尼指数。信息增益和增益率在ID3和C4.5算法中的应用，以及如何通过基尼指数优化CART决策树的构建过程，揭示了这些指标在提高分类效率和避免属性偏好上的作用。

摘要由CSDN通过智能技术生成

思想：希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的纯度越来越高。

1. 信息熵（Information Entropy）

信息熵（Information Entropy）用于度量样本集合 “纯度（purity）” 的指标。

假定当前样本集合D中第k类样本所占比例为 $p_k$ (k=1, 2…|y|) ，则D的信息熵定义为
$-\sum_{k=1}^{ |y|}p_klog_2^{p_k}$
Ent(D)值越小，则D的纯度越高。

2. 信息增益 (Information Gain) 与 ID3 决策树算法

用于计算属性a对样本集D进行划分所获的的 “信息增益”
$Gain(D,a)=Ent(D)-\sum_{v=1}^V\frac{｜D^v｜}{｜D｜}Ent(D^v)$

一般而言，信息增益越大，意味着使用属性a来进行划分所获得的“纯度提升”越大。

因此，我么可用信息增益来进行决策树的划分属性选择，即选择属性 $a_*=argmax Gain(D, a)$ ，著名的ID3决策树算法就是以信息增益为准则来选择划分属性

ID3 决策树算法（Iteration Dichotomiser 迭代二分类器）是基于信息增益的决策树算法。

4. 信息增益率（Information Gain Ratio）与 C4.5 决策树算法

因为信息增益准则对可取值数目较多的属性有所偏好，为了避免这个情况，C4.5 决策树算法使用 “信息增益率”来决策

信息增益率：
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$ $其中，IV(a)=-\sum_{v=1}^V{\frac{D^v}{D} log_2^{\frac{D^v}{D} }}$

需要注意的是：增益率准则对可取值数目较少的属性值有所偏好。因此，C4.5 算法并不是直接选择增益最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

5. 基尼指数（Gini）与 CART 决策树算法

基尼指数是另一种用于衡量数据集纯度的指标。
$1-\sum_{k=1}^yp_k^2$
基尼值 Gini(D) 越小，数据集的纯度越高。
$Gini\_index(D,a) = \sum_{v=1}^V\frac{D^v}{D} Gini(D)$

我们在候选属性集合A中，选择那个使得划分后属性基尼指数最小的属性作为最优划分属性

Enzo 想砸电脑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Enzo 想砸电脑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。