ID3算法的原理及实现(Python)

ID3算法是比较经典的决策树构造方法,可以用它来划分标称型的数据集。其原理是用标称属性来划分数据集,实现分枝。而划分数据集也就是分枝策略的依据是信息增益,选出分枝后信息增益最大的属性,若信息增益大于零,则按该属性进行分枝,若小于等于零则不分枝。以此类推,对子节点采用同样的策略进行分枝,直到无法再分为止,那么决策树也就构造完成了。信息增益是什么呢?信息增益=分枝前数据集的信息熵-分枝后各个子集的信息熵的加权和。那么信息熵又是什么呢?这里就不给出信息熵的计算公式了,但是它本质上是一个反应数据集不纯度的量。听着有点拗口,解释一下,如果数据集中的样本什么类标签的都有,而且比重相当,那么这个时候的不纯度是最高的,信息熵也是最大的,反过来,如果数据集中的样本只有一种类标签,那么这个时候的不纯度是最低的,信息熵也是最小的。很明显,我们划分数据集的目标应该是使子节点获得的信息熵尽可能地小,也就是纯度尽可能地高。那么回到上面信息增益的定义,我们可以看出其实所谓的信息增益其实是一种反应分枝效果的指标。信息增益越大,那么子节点的纯度越高,分枝效果越好,越可能达到我们的目标,反之纯度越低。而信息增益不大于零的情况代表分枝过程并没有使得数据的纯度得到提高,所以也就没有进行分枝的必要。反之,如果信息增益大于零,说明分枝过程还是向着我们的最终目标靠近的,所以,还是分吧。

首先,解释一下决策树节点的结构:

'''
决策树的节点结构
attrPos;整型,节点分枝属性的下标,也就是作为父节点产生分枝所用的属性
attrValue:字符串型,节点分枝属性的值,也就是作为子节点从父节点分枝所对应的属性值
classLabel:字符串型,落入该节点的样本中比例最高的类标签
sons:list对象,保存当前节点的所有子节点
'''
class Node :
    attrPos = None
    attrValue = None
    classLabel = None
    def __init__(self):
        self.sons = []
各个成员的含义已经在注释中说明,需要注意的是子节点列表sons必须定义在构造函数中,如果直接定义在外部,将变成静态变量,一处改,处处改,这显然与我们要求的不符。当然理论上也应该将其它几个成员也定义在构造函数中,但是从类型上来说,其余几个都是不可修改的对象,而Python中所有的对象名都是引用࿰
  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值