基于ID3算法的决策树研究与天气预测C++实现

目录

一、初识决策树

二、理论基础

三、ID3算法

四、问题实现

五、运行结果分析

六、References


一、初识决策树

       决策树( Decision Tree )又称为判定树,是对数据进行分类的一种树结构,并通过分类达到预测的目的。决策树分为分类树和回归树两种,分类树是对离散变量做决策树,回归树是对连续变量做决策树。构造决策树是采用自上而下的递归构造方法。

       决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。决策树中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上面的结点是根结点。二叉树的非叶结点一般表示为一个逻辑判断,如形为 (a = b) 的逻辑判断,其中 a 是属性,b 是该属性的某个属性值;树的边是逻辑判断的分支结果;树的叶结点都是类别标记。多叉树的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。

       决策树的分类过程也就是决策树分类模型(简称决策树)的生成过程,如下图所示。从图中可知决策树分类的建立过程与用决策树分类模型进行预测的过程实际上是一种归纳-演绎过程。其中,由已分类数据得到决策树分类模型的过程称归纳过程,用决策树分类模型对未分类数据进行分类的过程称为演绎过程。需要强调的是:由训练集得到分类模型必须经过测试集测试达到一定要求才能用于预测。


二、理论基础

1.信息量:衡量信息多少的物理量。

若概率很大,人们事先已有所估计,则该消息信息量很小;若概率很小,人们感到很突然,则该消息所含信息量很大。

信息量的定义:若一个消息x出现的概率为p,则这一消息所含的信息量为

n=2时,单位为bit;n=e时,单位为nat;n=10时,单位为hart。一般计算中n常取2。

例:抛一枚均匀硬币,出现正面和反面的信息量是多少?

解:出现正反面概率均为0.5,则

2.信息熵

信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个属性所含信息量的统计平均值,即所有可能发生事件所带来的的信息量的期望。信息论中一个离散型随机变量X的熵定义如下:

信息熵的定义也可表示为:

n为训练集X类别数,如子集结果类别为正面、反面,则n为2。

例:抛一枚均匀硬币的信息熵是多少?

解:

(注:ID3算法中会为每一个类别计算信息熵,具有最小信息熵的类别在本次迭代中用来划分数据集X。)

3.条件自信息量

在事件出现的条件下,随机事件发生的条件概率为 ,则它的条件自信息量定义为条件概率对数的负值:

 

4.条件熵

条件熵的定义是:在Y给定条件下,X的条件概率分布的熵对Y的数学期望。

 

在给定条件下,的条件自信息量为

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值