决策树模型之ID3算法、C4.5算法和CART算法

最新推荐文章于 2024-04-30 13:14:31 发布

Jerry_Chang31

最新推荐文章于 2024-04-30 13:14:31 发布

阅读量1.7k

点赞数 4

分类专栏：机器学习算法文章标签：算法信息熵决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jerry_Chang31/article/details/103778744

版权

本文介绍了决策树模型中的ID3、C4.5和CART算法，包括信息熵、信息增益、信息增益率和基尼系数等概念。ID3算法易偏向取值较多的特征，C4.5通过信息增益率改进此问题，而CART算法使用基尼系数并能处理回归问题。

摘要由CSDN通过智能技术生成

决策树模型是一种常用的有监督的学习模型，其主要用来解决分类问题，但是也可用来解决回归问题。

信息熵和信息增益

我们先来了解两个概念，信息熵与信息增益。

信息熵
信息熵用来表示事物的不确定性或不纯性，信息熵越大，则表示该事物的不确定性或不纯性越大。

信息熵的公式为： $H(x)=-\sum_{i=1}^{n}p_ilogp_i$

举个例子：有两个集合，A集合[1,1,1,1,1,1,3]，B集合[1,2,3,4,5,6,7]，显然A集合的熵值要比B集合小得多，因为A集合只有两类，B集合有七类，相对来说A集合的不确定性要比B集合小，因此A集合的熵值更小。同样，我们在进行分类问题时，也希望通过节点分类后，数据的不确定性变小。

信息增益

简单来说，信息增益就是熵值变化的大小，即一个特征带来的熵值变化。

信息增益公式： $I (x, y) = H (x) - H (x ∣ y)$

信息熵和信息增益计算方法：

举个例子：
在这里插入图片描述
这是一份一个同学这14天打球的情况，其中“play”是标签，其他是特征。在分裂之前，14天中，有9天打球，5天不打球，所以，此时的熵值为：

$-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14}=0.940$

最低0.47元/天解锁文章

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
决策树模型之ID3算法、C4.5算法和CART算法

决策树模型是一种常用的有监督的学习模型，其主要用来解决分类问题，但是也可用来解决回归问题。信息熵和信息增益我们先来了解两个概念，信息熵与信息增益。信息熵信息熵用来表示事物的不确定性或不纯性，信息熵越大，则表示该事物的不确定性或不纯性越大。信息熵的公式为： H(x)=−∑i=1npilogpiH(x)=-\sum_{i=1}^{n}p_ilogp_iH(x)=−∑i=1npilogpi...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。