决策树（一）ID3和C4.5算法原理与实现

最新推荐文章于 2023-10-28 17:38:27 发布

Bill Gu

最新推荐文章于 2023-10-28 17:38:27 发布

阅读量446

点赞数 1

分类专栏：算法学习 python 机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gujun5168698/article/details/84076483

版权

算法学习同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

一、预备知识

1、信息熵

H(p) = $-\sum p_{i}logp_{i}$ (可以从，信息量相加就是独立随机事件相乘来理解，所以需要取对数），熵entropy这个词本身代表不确定性的意思，而不确定性越大，信息量则越大。

2、条件熵

H(D|A)= $\sum p_{i}H(D_{i})$ ,pi表示某一子集占统计量的比列，H（Di）为该子集的信息量

3、信息增益

g(D,A) = H(D) - H(D|A)

4、信息增益比

$g_{R}=$ g(D,A) /H(D|A)

二、ID3和C4.5算法

两个算法都很简单，就是每次对数据集遍历其特征，ID3根据选择的特征计算信息增益，选择使信息增益最大的划分特征。

C4.5选择信息增益比 $g_{R}$ 最大的特征划分，直到达到停止条件。

三、Python实现

最近比较忙，等有时间了在写一下

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树（一）ID3和C4.5算法原理与实现

一、预备知识1、信息熵H(p) = (可以从，信息量相加就是独立随机事件相乘来理解，所以需要取对数），熵entropy这个词本身代表不确定性的意思，而不确定性越大，信息量则越大。2、条件熵H(D|A)=,pi表示某一子集占统计量的比列，H（Di）为该子集的信息量3、信息增益g(D,A) = H(D) - H(D|A)4、信息增益比g(D,A) /H(D|A)二、...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。