ID3 与 C4.5

决策树(Decision Tree)是一种基本的分类与回归方法(ID3、C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归)。决策树在分类过程中,表示的是基于特征对实例进行划分,将其归到不同的类别。决策树的主要优点是模型可读、易于理解、分类速度快、建模与预测速度快。

ID3 与 C4.5 ,这两种形式的决策树学习均包括三个步骤:

1)特征选择;

2)决策树的生成;

3)减枝。

决策树生成过程对应着局部最优的特征选择,而剪枝对应着对模型进行全局调优。

 

特征选择

ID3 中信息增益算法归纳如下:

至于 C4.5 完全与 ID3 类似,只不过不是采用 IG了,而是利用信息增益比:因为用 IG 作为寻找最优划分特征时,倾向于选择特征取值多的特征,所以使用信息增益比可以校正该问题,IGR 是这样定义的:

决策树的生成

经过特征选择后,接下来将进入决策树的生成算法.首先看 ID3 ,算法是这样一个过程:从根节点开始,计算特征集合的信息增益,选择增益最大的特征作为节点的特征,又该特征的不同取值构建不同的子节点,对子节点递归调用特征选择过程,直到信息增益很小或没有特征可以选择为止。ID3 算法如下:

决策树剪枝

决策树递归的生成,直到不能继续为止,这样产生的树往往对于训练数据十分准确,但不能很好的泛化到测试数据上,因为决策树考虑对训练数据尽可能的正确分类,从而构建出过度复杂的决策树,产生过拟合的现象,可以通过剪枝来降低树的复杂度,剪枝即裁剪掉树中的一些代表类别的叶节点,并将其数据合并到父节点作为新的叶节点,从而简化分类模型。剪枝是从决策树整体出发的,用来降低整个决策树的误差。通过极小化损失函数来实现。

剪枝算法只考虑剪枝前后损失函数的差,所以剪枝可以理解为一种动态规划算法。ID3 与 C4.5 均采用这种算法即可。

 

 

参考:

http://www.cnblogs.com/ooon/p/5643494.html

《统计学方法》

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值