机器学习-机器学习之随机森林（下)

最新推荐文章于 2024-09-16 16:56:48 发布

Eun

最新推荐文章于 2024-09-16 16:56:48 发布

阅读量638

点赞数

分类专栏：机器学习文章标签：机器学习人工智能决策树 python 算法

本文链接：https://blog.csdn.net/qq_39185267/article/details/116160011

版权

本文介绍了C4.5算法对ID3的改进，包括离散化处理、缺失值处理和剪枝策略，并提及CART算法对C4.5的优化，如使用二叉树和基尼系数。最后，文章概述了随机森林的概念及其优势，指出其通过数据抽样和特征子集选择来提高模型的准确性和鲁棒性。

摘要由CSDN通过智能技术生成

上次我们说到了决策树的ID3算法，现在我们聊一聊剩下的两种算法。后面再给点代码示例。

在ID3算法中节点分裂的基准是按照信息增益来确定分裂节点，那么对于ID3算法来讲就会出现每次分裂的时候都会选择数目特征多的节点来进行分裂。然后C4.5算法中，对于节点分裂的时候采用的是信息增益率来确定分裂的节点。

信息增益率=信息增益/属性熵
在这里插入图片描述

具体计算过程就省略了。可以参考这篇文章：这里（https://zhuanlan.zhihu.com/p/89902999）如有侵权立删。

我们此次主要讲C4.5解决了ID3哪些不足。

关于离散型特征的处理：

C4.5算法于是将连续的属性进行离散化，离散化策略就是二分法。（参考西瓜书p83）

关于缺失值的处理方式:
在缺失值方面还细分了两种情况：（参考西瓜书p85）

   一是在样本某些特征缺失的情况下选择划分的属性。（对于具有缺失值特征，用没有缺失的样本子集所占比重来折算）

    二是选定了划分属性，对于在该属性上缺失特征的样本的处理。（将样本同时划分到所有子节点，不过要调整样本的权重值，其实也就是以不同概率划分到不同节点中）

关于第一种情况的解决方案：

某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

关于第二种情况的解决方案：

可以将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。

同时在C4.5中也引入了剪枝策略：
为什么要剪枝？（为了防止过拟合）

怎样的方式来剪枝？（预剪枝，后剪枝）

顾名思义：预剪枝，节点分裂前剪枝。后剪枝（节点分裂后剪枝）
对于发生预剪枝的条件而言：
1.节点内数据样本低于某一阈值。

     2.所有节点特征都已分裂。

对于发生后剪枝的条件而言：

用递归的方式从低往上针对每一个非叶子节点，评估用一个最佳叶子节点去代替这颗子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。

以上就是C4.5对于ID3算法的一些改进。

同样的还有CART算法，CART算法是对于C4.5算法的改进。这里先说说CART算法改进了C4.5哪些方面。

1.C4.5 用的是多叉树，用二叉树效率更高；

2.C4.5 只能用于分类；（为什么C4.5和ID3只能分类

最低0.47元/天解锁文章

Eun

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录