第五章——挖掘建模之决策树

本文深入探讨了决策树的概念、构造过程以及ID3算法,包括信息熵、信息增益等核心概念,并提供了代码实现和解决实践中遇到的问题的建议。
摘要由CSDN通过智能技术生成

决策树

概念
决策树方法在分类、预测、规则提取等领域有着广泛应用。
构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。

构造
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
形如下图:此图来自百度百科
决策树算法的分类

决策树算法 算法描述
ID3算法 其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所采用的合适属性
C4.5算法 C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足:ID3算法只适用于离散的描述属性,而C4.5算法既能够处理离散的描述属性,也可以处理连续的变量属性
CART算法 CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树

详细介绍ID3算法

信息增益
设S是s个数据样本的集合。假定类别属性具有m个不同的值: C i C_i Ci(i=1,2,…,m)。设 s i s_i si是类 C i C_i Ci中的样本数对一个给定的样本,它总的信息熵为
I ( s 1 , s 2 , . . . , s m ) = ∑ i = 1 m P i l o g 2 ( P i ) I(s_1,s_2,...,s_m) = \displaystyle\sum_{i=1}^{m} P_ilog_2(P_i) I(s1,s2,...,sm)=i=1mPilog2</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值