c语言实现id3算法决策树,决策树学习与ID3算法C++实现

本文详细介绍了决策树的学习原理,包括其构建过程、相关定义和ID3算法的C++实现。通过一个流感预测案例,展示了如何利用ID3算法构建决策树,以及如何设计样本文件内容格式和决策树数据结构。
摘要由CSDN通过智能技术生成

决策树学习是以实例为基础的归纳学习,它从一类无序、无规则的事物(也就是概念)中推理出决策树表示的分类规则。

决策树

所谓决策树就是一棵表示“怎么做决定”的树。比如你现在考虑是否要去跑步,那么你也许会以这样的顺序来考虑:

天气怎么样?如果下雨我就不去了;不下的话,我再考虑考虑。

我状态怎么样?如果良好就出发吧,不然就算了吧。

如果将上面这个考虑(做决定)过程转化为一棵决策树,它会是下面这个样子的:

f038116aeddc

DecisionTree.png

注意上面列出的两个点之间是有优先级的,第一点显然是我们先考虑的。好的决策树的层次就表现了良好优先级,在顶层的属性(如“天气”),其决策优先级要高,这也意味着这一属性是可以最快导出结果的。

上面例子的决策树碰巧是一棵二叉树,实际上决策树可以是任意多叉的。

决策树学习

决策树学习采用的是自顶向下的递归方法,决策树的每一层结点依照某一属性值向下分为子结点,待分类的实例在每一结点处与该结点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶结点时结束,此时得到结论。

从根结点到叶结点的每一条路径都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取的规则。决策树学习算法的最大优点是,它是可以自学习的。

在学习的过程中,不需要使用者了解过多背景知识,只需对训练例子进行较好的标注,就能够进行学习。如果在应用中发现不符合规则的实例,程序会询问用户该实例的正确分类,从而生成新的分支和叶子,并添加到树中。

决策树学习相关定义

决策树学习算法是以信息熵为基础的。

下面是一些相关的定义:

自信息量

设信源

math?formula=X发出

math?formula=a_i的概率为

math?formula=p(a_i),在收到符号

math?formula=a_i之前,收信者对

math?formula=a_i的不确定性定义为

math?formula=a_i的自信息量

math?formula=I(a_i)。其中,

math?formula=I(a_i)%20%3D%20-%7Blog%7D_2%5C%20p(a_i)

信息熵

自信息量只能反映符号的不确定性,而信息熵用来度量整个信源整体的不确定性,定义为:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值