决策树 ID3

最新推荐文章于 2024-04-30 16:07:34 发布

Claroja

最新推荐文章于 2024-04-30 16:07:34 发布

阅读量194

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/claroja/article/details/108852386

版权

1.被用作分裂点的特征叫做分裂特征

ID3 算法（Iterative Dichotomiser 3）：以信息增益为度量，选择分裂后信息增益最大的特征进行分裂。

信息熵(information entropy)
样本集合中第k类样本所占的比例为 $p_k(k=1,2,...,n)$ ，n为样本分类的个数，则D的信息熵为
$Ent(D)=-\sum_{k=1}^np_klog_2(p_k)$
Ent(D)越小，则D的纯度越高。假设样本集合有2个分类，每类样本的比例为0.5，则Ent(D)=1；如果只有1个分类，则Ent(D)=0，显然后者比前者的纯度高。

信息增益(information gain)
使用特征a对样本集D进行划分，用个样本集的总信息熵减去特征a的每个分支的信息熵与权重的成绩，通常信息增益越大，意味着用特征a划分进行划分所获得的“纯度提升越大”，因此选择信息增益最大的属性来划分。设特征a有m个可能的取值 $a_1,a_2,...,a_m$ 则，特征a的信息增益为：
$\sum_{m=1}^m\frac{D^m}{D}Ent(D^m)$

参考：
https://blog.csdn.net/leaf_zizi/article/details/82848682
https://www.jianshu.com/p/a786c55597d2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。