数据挖掘十大算法之C4.5决策树

标签: 数据挖掘
25人阅读 评论(0) 收藏 举报
分类:

C4.5决策树

C4.5决策树属于分类算法,基于信息增益率来选择样本划分特征,每次根据这个特征将样本划分到不同的集合中。

了解信息增益率

  • 信息增益率=信息增益/分裂信息度量 ,信息增益是ID3分类决策树的划分样本特征,它的缺点在于倾向于选择特征取值多的特征作为划分标准,从信息增益的计算可以看出来(稍后说明),而分裂信息度量等于各种特征的取值所占比例*它的对数之和的负数,因为比例一定小于等于1,所以对数为负,最后要取负。分裂信息度量刚好弥补了倾向于选择特征取值多的缺陷,分裂信息度量随着特征取值多而增大,所以信息增益率会被减少。倾向于选择特征取值多的问题在于可能该特征对类别的影响没有那么大,但是特征取值多,就会造成它被优先作为划分标准。
  • 信息增益=熵-条件熵=类别信息熵-属性信息熵,类别信息熵=类别取值所占比例*它的对数之和的负数,表示划分类别的不确定性,可以看出随着类别而增多,不确定性也会增大。需要的信息量也越大。属性信息熵=(特征的取值所占比例*在这个条件下的类别信息熵 (这里类别信息熵计算不再是基于整体样本的比例,而是基于特征取值所对应的类别个数的比例))之和的负数,表示在该属性的条件下,类别的不确定性,类别越多,不确定性越大。类别信息熵和属性信息熵之差就表示在该属性条件下,类别不确定性减少的程度,减少得更多,就能更快地分类出来。属性信息熵随着特征取值增多而减少,所以信息增益也会增大。这就说明了基于信息增益的ID3决策树更倾向于选择特征取值多的特征作为划分标准。

计算流程

  • 首先选出信息增益率最大的特征作为划分标准,然后剔除该特征之后,再从划分的各个集合中选出信息增益率最大的特征。进一步划分。
  • 不断重复上述流程,直至划分的集合都属于同一类别。
查看评论

机器学习-决策树

机器学习算法系列课程,简单通俗的介绍常见的机器学习算法,并且用python验证
  • 2017年09月04日 15:53

数据挖掘十大算法之C4.5(详细终结版)

  • 2015年03月29日 15:54
  • 559KB
  • 下载

数据挖掘十大算法翻译——1决策树

算法介绍
  • u010293844
  • u010293844
  • 2015-11-22 18:42:41
  • 1146

『数据挖掘十大算法 』笔记一:决策树

数据挖掘Top 10算法 决策树模型与学习 特征选择 信息增益 熵entropy 条件熵 信息增益 信息增益算法 信息增益比 决策树生成 ID3算法 C45算法 决策树剪枝 先验设定控制复杂度 损失函...
  • shine19930820
  • shine19930820
  • 2017-03-15 18:00:01
  • 1855

C4.5决策树 java

  • 2010年09月01日 15:03
  • 3KB
  • 下载

数据挖掘十大算法之决策树详解(2)

在2006年12月召开的 IEEE 数据挖掘国际会议上,与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms )。本博客的十大数据挖掘算法系列已经介...
  • baimafujinji
  • baimafujinji
  • 2016-11-20 15:05:14
  • 7637

数据挖掘决策树——C4.5

分类决策树——C4.5        前一篇文章我介绍的是分类决策树ID3,学习过ID3的同学肯定知道它的变体——C4.5。现在我们介绍另外一个经典的决策树C4.5。在很多介绍中,C4.5被看作是数据...
  • PANHUBO
  • PANHUBO
  • 2016-05-29 21:39:00
  • 445

Thinking in SQL系列之四:数据挖掘C4.5决策树算法

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,...
  • NcFire
  • NcFire
  • 2017-02-15 01:04:49
  • 2632

数据挖掘十大算法之一C4.5(详细版终结版)

本文详细介绍了决策树算法C4.5的工作原理以及后面的悲观剪枝原理,并通过实例进行阐明,最后,通过R语言实例进行了练习。...
  • x454045816
  • x454045816
  • 2015-03-29 14:34:10
  • 24425

数据挖掘十大算法之C4.5

  • 2017年05月16日 15:10
  • 910KB
  • 下载
    个人资料
    持之以恒
    等级:
    访问量: 2166
    积分: 213
    排名: 36万+
    文章分类
    文章存档