数据挖掘算法----决策树ID3算法

简介

ID3算法是一种分类预测算法,其核心思想是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确地分类那么选择一些例外加入到训练集数据中,重复该过程直到形成正确的决策集,决策树代表决策集的树形结构。

算法流程

(1)对数值型数据进行离散化处理

(2)ID3算法构建决策树

如果数据集类别相同,则停止划分

否则,继续划分决策树

  • 计算信息熵和信息增益来选择最好的数据集划分方法
  • 划分数据集
  • 创建分支结点
  • 对每个分支判断类别是否相同,若是则停止划分,否则继续

算法优点:理论清晰、方法简单、学习能力较强

算法缺点:

(1)只能处理分类属性的数据,不能处理连续数据;

(2)划分过程会因为子集规模过小而造成统计特征不充分而停止;

(3)ID3算法在选择根结点和各内部结点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多的价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值