ID3算法的weka实现

ID3算法通过信息增益构建决策树。在Weka中,ID3算法的核心在于makeTree()方法,处理数据集并选择最优属性进行分裂。当信息增益为0时形成叶节点。Weka的Id3类包含构建分类树的关键变量,并在buildClassifier()中调用makeTree()。数据预处理后,删除缺失属性的实例,然后计算最大信息增益,选择分裂属性,递归构建子树直到所有节点成为叶节点。
摘要由CSDN通过智能技术生成

ID3:归纳决策树(Induction Decision Tree Version 3) 

ID3算法一种由数据构造递归的的过程。选择一个属性作为根节点,按照其他属性将数据集分类,每一个子节点得到一个数据集。对这种划分的质量进行评估,递归执行该过程,直至全部节点不能再进行划分。某节点不能划分的条件有2:一个是节点具有单类,二是节点具有单一属性。

质量评估的标准为:

①信息增益:根节点的信息值,与分裂子节点后各节点平均信息值的差

②信息增益率:信息增益有一个弊端,当例如ID码这种对分类结果没有任何用处,但是信息增益极大的属性,仅靠信息增益判断是不行的。

信息增益率 信息增益 节点的固有信息值(不考虑类,仅凭信息量)

虽然ID的信息增益率仍是最高的,但是他的优势已经大大减小了。在实际生产中,会相应处理掉ID码这种无用的属性。

 

 

以上是我认为ID3算法的应该注意的几个地方,下面着重分析weka的源码。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值