C4.5算法（一）代码实现

最新推荐文章于 2024-07-09 17:03:37 发布

amber_amber

最新推荐文章于 2024-07-09 17:03:37 发布

阅读量8.7k

点赞数 5

分类专栏：机器学习文章标签：机器学习 C4.5 决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Amber_amber/article/details/47317173

版权

本文介绍了C4.5决策树算法，属于机器学习中的监督学习方法。首先阐述了算法逻辑，包括熵的概念，接着详细解释了C4.5的步骤，如判断数据集纯度、选择信息增益率最大属性、划分子数据集及递归构建决策树。同时，提供了Java代码实现决策树主要逻辑的部分。

摘要由CSDN通过智能技术生成

入门学习机器学习的十大算法，第一站就是C4.5算法。C4.5是一种决策树算法，属于监督学习。先给一个样本集，从而建立一棵决策树，然后根据这个决策树来对后续的数据做决策。

作为没有相关背景知识和系统学习过的人，当然要边学边记啦。C4.5算法我的学习步骤是这样：

step 1: 了解清楚算法的逻辑，以及编程实现

step 2: 其中对连续变量的离散化处理

step 3: C4.5的剪枝

step 4: C4.5算法的spark实现

因为个人认为C4.5算法中比较难和重要的两个点就是对连续变量的离散化，和剪枝策略，所以会单独着重学习下。因为我终归是做hadoop和spark的，所以还会看看C4.5在spark上的应用和实现（C4.5显然不适合MapReduce模型）。本文只是step1，算法逻辑和编程实现的总结。

算法逻辑

1. 先明确几个概念：

熵：朴素点说，就是信息的不确定性，多样性，包含的信息量的大小，需要用多少bit来传递这个信息。比如，抛一枚银币3次，得到的可能结果有8种，我们知道计算机要用3bit来传递，所以熵就是log2(8)=3。wiki上这样解释“你需要用 log2(n) 位来表示一个可以取 n 个值的变量。”

信息增益: 熵的减小量。决策树的期望是尽快定位，也就是说我们希望数据集的多样性越小越好，越小说明结果越稳定，越能定位到准确的结果。信息增益越大，则熵会变的越小，说明结果越好。信息增益的计算方式，是原数据集的熵，减去依照属性划分后，每个属性值的概率 * 对应的子数据集的熵。

信息增益率：对信息增益进行修正。信息增益会优先选择那些属性值多的属性，为了克服这种倾向，用一个属性计算出的信息增益，除以该属性本身的熵（SplitInfo），得到信息增益率。

最低0.47元/天解锁文章

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。