用熵的决策树问题ID3和C4.5,C5.0简单介绍

本文介绍了熵在决策树算法中的应用,阐述了ID3算法的基本思想和构建过程,以及在处理过拟合问题上的局限。接着,详细讨论了C4.5对ID3的改进,包括采用信息增益率避免偏好特征值多的特征,处理连续数据和缺失值的能力,以及剪枝策略。最后提到了C5.0作为C4.5的增强版,适用于大数据集,使用boosting方法并优化内存和速度。
摘要由CSDN通过智能技术生成

用熵决策树问题的最基本思想:

    我们一般可以通过信息熵来描述分类的混乱程度,如果标注的种类繁杂,说明信息非常混乱,如果标注就只有一种,或者大部分标注相同,那么说明这个数据集的信息比较整齐。用熵决策树的基本思想就是通过不断的划分数据集(通过用特征细化),是的信息熵尽量变小,也就是所谓的增大信息增益。通过不同的特征值来划分数据集,得到的信息增益是肯定不同的,熵决策树的目标就是找出最优的划分方法,此处的最优不仅仅只是最优增益的问题,还有过/欠拟合等问题,以后慢慢谈到


ID3:

ID3就是上述思想最简单的实现(具体算法可以见上一篇博文),通过比较用哪个特征划分样本得到的信息增益最大来构建决策树,有一点贪心算法的意思~


具体的构建树的伪代码如下:

在此有几个问

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值