用python实现id3_机器学习(11)之C4.5详解与Python实现（从解决ID3不足的视角）

最新推荐文章于 2023-07-17 16:41:01 发布

weixin_39742958

最新推荐文章于 2023-07-17 16:41:01 发布

阅读量118

点赞数

文章标签：用python实现id3

本文链接：https://blog.csdn.net/weixin_39742958/article/details/112827769

版权

C4.5算法是ID3的改进版，解决了ID3的四个主要问题：处理连续特征、信息增益偏向、缺失值处理和过拟合。它通过特征离散化处理连续特征，使用信息增益比解决偏向问题，并对缺失值采用特定策略。C4.5还引入正则化系数进行剪枝，但仍有优化空间，如剪枝方法、二叉树模型、拓展到回归任务和减少运算复杂性。

摘要由CSDN通过智能技术生成

前言

上一篇(机器学习(9)之ID3算法详解及python实现)我们讲到ID3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。

针对于问题1

对于第一个问题，不能处理连续特征， C4.5的思路是将连续的特征离散化。比如 m 个样本的连续特征 A 有 m个，从小到大排列为a1,a2,...,am, 则C4.5取相邻两样本值的中位数，一共取得m-1个划分点，其中第i个划分点表示Ti表示为：Ti=ai+ai+12。对于这m-1个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为at,则小于at的值为类别1，大于at的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

针对于问题2

对于第二个问题，信息增益作为标准容易偏向于取值较多的特征的问题。我们引入一个信息增益比的变量IR(X,Y)，它是信息增益和特征熵的比值。表达式如下：

其中D为样本特征输出的集合，A为样本特征，对于特征熵HA(D), 表达式如下：

其中n为特征A的类别数， Di为特征A的第i个取值对应的样本个数，D为样本个数。特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

针对于问题3

对于第三个缺失值处理的问题，主要需要解决的是两个问题，一是在样本某些特征缺失的情况下选择划分的属性，二是选定了划分属性，对于在该属性上缺失特征的样本的处理。

对于第一个子问题，对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重(初始可以都为1)，然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

对于第二个子问题，可以将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。

最低0.47元/天解锁文章

weixin_39742958

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用python实现id3_机器学习(11)之C4.5详解与Python实现（从解决ID3不足的视角）

前言上一篇(机器学习(9)之ID3算法详解及python实现)我们讲到ID3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。针对于问题1对于第一个问题，不能处理连续特征， C4.5的思路是将连续的特征离散化。比如 m 个样本的连续特征 A 有 m个，从小到大排列为a1,a...
复制链接

扫一扫