Python实现决策树算法(一)

1.概念明晰

决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个自己。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的和性问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。

2.决策树的相关算法

ID3算法:核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的核实属性。

C4.5算法:C4.5决策树生成算法相对于IO3算法的重要改进是使用信息增益律来选择节点属性。ID3算法只适用于离散的描述属性,而C4.5算法技能处理离散,也能处理连续的描述属性。

CART算法:CART算法是一种十分有效的,非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树,当终结点是连续变量时,该树为回归树,当终结点是分类变量,该树为分类树。

3.ID3算法简介及基本原理

ID3算法是基于信息熵来选择最佳测试属性, 它选择当前样本集中具有最大信息增益的属性作为测试属性,样本集的划分则依据测试属性的取值进行,测试属性有多少不同取值就将样本集划分为多少子样本集,同时决策树上相应该样本集的节点长出新的叶子节点。ID3算法根据信息论理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性,信息增益度越大,不确定性越小。

4.ID3算法流程

(1)对当前样本集合,计算所有属性的信息增益

(2)选择信息增益最大的属性作为测试属性&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值