id3判定树学习算法的实现_深度学习中的ID3算法

ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。

算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。

并根据该特征对数据集进行划分,使得各个样本都得到一个最好的分类的过程。

3024d5fc237624fabf1ecbbc80d9dfb2.png

决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。

示例是一个通过室外的天气情况决定是否进行室外运动的决策树,方框内代表有多少个实例属于对应的分类,这里有9个属于play,有5个属于don't play,一共有14个实例。图中的outlook表示预测的天气,作为该决策树的根结点,根结点下面有三个分支,分别是sunny(晴天)、overcast(多云)、rain(雨天)三种天气情况。如果是sunny(晴天),属于play的个数是2,属于don't play的个数是3;(overcast)多云的话,属于paly的个数是4,属于don't play的个数是0,同样如果是rain(雨天)的话,属于play的个数是3,属于don't play的个数是2。在sunny(晴天)结点下还分出了一个分支humidity(湿度),这里将湿度这个连续值作了一个离散处理,取一个阈值(这里取70),将这个连续值分为两个部分;同样在rain下有一个分支windy(是否有风),用true和false来作为分支的条件。

ID3算法理论

所以这里的关键在于如何选择最优特征对数据集进行划分。答案就是前面提到的信息增益、信息增益比和Gini指数。因为本篇针对的是ID3算法,所以这里笔者仅对信息增益进行详细的表述。

在讲信息增益之前,这里我们必须先介绍下熵的概念。在信息论里面,熵是一种表示随机变量不确定性的度量方式。若离散随机变量X的概率分布为:

91dbf62f31158d5ff192e1e458a818f5.png

则随机变量X的熵定义为:

47394e54fb18951cd245aad02ca29a6b.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值