【干货分享】C4.5算法(上)

本文介绍了C4.5决策树算法,它是ID3的改进版,通过信息增益率选择属性以克服偏向取值多的属性的问题,并在构建过程中进行剪枝。C4.5能处理连续属性和不完整数据,适用于大数据集的分类。文章阐述了决策树的基本思想,描述了C4.5的工作流程,并讨论了信息增益、信息增益率和基尼指数作为属性选择度量的方法。
摘要由CSDN通过智能技术生成

今天跟大家分享一下C4.5算法相关内容,内容有点多,会分上下两篇写

简介
一种分类决策树算法,对海量数据集进行分类和回归。

其核心算法是ID3算法.,对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。

优点:
产生的分类规则易于理解,准确率较高。

缺点:
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

Github
https://github.com/scottjulian/C4.5

01.什么是决策树

决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。

树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。

从数据产生决策树的机器学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值