《西瓜书》决策树部分公式推导

最新推荐文章于 2022-04-07 03:16:54 发布

sinat_32910305

最新推荐文章于 2022-04-07 03:16:54 发布

阅读量364

点赞数

分类专栏：机器学习算法文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_32910305/article/details/86182930

版权

本文深入解析了决策树中熵、信息增益和增益率的概念，以及基尼指数的计算。通过讨论这些概念，阐述了如何评估样本集合的纯度，并解释了在特征选择中如何利用这些指标。信息增益倾向于选择特征值多的特征，而增益率则弥补了这一缺陷，更偏好于特征值较少的特征。同时，介绍了基尼指数作为另一种衡量纯度的指标，用于连续特征的划分决策。

摘要由CSDN通过智能技术生成

1、公式4.1注解
熵是度量样本集合纯度最常用的一种指标，代表一个系统中蕴含多少信息量，信息量越大表明一个系统不确定性就越大，就存在越多的可能性。
假定当前样本集合D中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ，则 $D$ 的信息熵为：
$=-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$
其中，当样本 $D$ 中 $∣ y ∣$ 类样本均匀分布时，这时信息熵最大，其值为
$=-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|}$
此时样本D的纯度越小；
相反，假设样本 $D$ 中只有一类样本，此时信息熵最小，其值为

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《西瓜书》决策树部分公式推导

1、公式4.1注解熵是度量样本集合纯度最常用的一种指标，代表一个系统中蕴含多少信息量，信息量越大表明一个系统不确定性就越大，就存在越多的可能性。假定当前样本集合D中第kkk类样本所占的比例为pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,∣y∣)，则DDD的信息熵为：Ent(D)=−∑k=1∣y∣pklog2pkEnt(D) =-\sum_...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。