决策树

最新推荐文章于 2024-09-30 20:51:00 发布

leon东

最新推荐文章于 2024-09-30 20:51:00 发布

阅读量201

点赞数

分类专栏：机器学习文章标签：决策树 cart C4.5 id3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37812673/article/details/103246599

版权

本文详细介绍了决策树算法，包括信息熵、信息增益、信息增益率、基尼值和基尼指数等划分依据。探讨了ID3、C4.5和CART算法的区别，如C4.5采用信息增益率避免过拟合，CART使用基尼指数。此外，还讨论了决策树剪枝的原因和重要性，以防止过拟合。最后提到了特征工程和决策树在文本特征提取中的应用。

摘要由CSDN通过智能技术生成

决策树算法:

分类算法：
目标值
离散型

特征值：
离散型[如这里的字符串类型的特征值] 将特征值为离散型的数值转化为数值型
‘1st’
‘2nd’
‘3rd’
在pandas里面数据离散化采用：
one-hot编码

####决策树算法去关心的两个问题：
1 结果（目标值）纯度问题
2 如何选择最优划分指标 --> 让我们结果尽可能的简单纯粹

纯度 :
{1，1，1，1，1，1，1}
{0,0,0,0,0,0,0,0,0}
不纯的情况：
{0,1,0,1,0,1,0,1,0,1}
{1,1,1,0,0,0,1,1,1,0}

####决策树分类原理

信息熵：
n pi = 1/n
当信息熵最不纯的时候，每种发生的概率值是相等的
-sum[pi*log(pi)]

sum pi * log(pi)
最不纯的情况：
log(n)

最纯的情况：
p1 = 1 p2, p3, pn = 0

1 * log(1) = 0

信息熵的单位是 bit
log(32) = 5 bit
所以对咱们的32支球队的获胜的预测概率求解，假设如果是等概率的情况，那么需要使用5位可以预测最后的获胜球队
11111 bit

决策树的划分依据一----信息增益

H(D)
咱们的信息熵的

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。