matlab c4.5算法,C4.5算法详解(至今见过写的最好的算法详解)

C4.5是ID3算法的改进版,使用信息增益率选择属性,能处理非离散数据并进行剪枝避免过拟合。本文详细介绍了C4.5算法的计算过程,包括信息熵、信息增益率和分裂信息的计算,并通过实例展示了如何选择决策节点。
摘要由CSDN通过智能技术生成

文章来源:http://blog.csdn.net/xuxurui007/article/details/18045943

C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:

用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。

在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting),如果不考虑这些结点可能会更好。

对非离散数据也能处理。

能够对不完整数据进行处理。

首先,说明一下如何计算信息增益率。

熟悉了ID3算法后,已经知道如何计算信息增益,计算公式如下所示(来自Wikipedia):

uid-9162199-id-4880120.html

或者,用另一个更加直观容易理解的公式计算:

按照类标签对训练数据集D的属性集A进行划分,得到信息熵:

uid-9162199-id-4880120.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值