ID3算法

1.决策树算法

决策树算法包括了 ID3 算法C4.5 以及 Cart 算法,这三类算法最主要的区别在于其特征选择准则的不同,其中 ID3 算法选择特征的依据是信息增益、C4.5是信息增益率,而 Cart 则是采用的基尼系数

2.信息熵

信心熵即为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以用来衡量系统有序化程度。

3.信息增益

信息增益用来划分前样本数据集的不纯程度(熵)和划分后样本数据集的不纯程度(熵)的差值。 假设划分前样本数据集为S,并用属性A来划分样本集S,则按属性A划分S 的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵:Gain(S, A) = Entropy(S) - Entropy_{A}(S)
按属性A划分S后的样本子集的熵定义如下:假定属性A有k个不同的取值,从而将s划分为k个样本子集(S1,S2,…,Sk),则按属性A划分S后的样本子集的信息熵:
Entropy_{A}(S)=\sum_{i=1}^{k}\frac{\left | S_{i} \right |}{\left | S \right |}Entropy(S_{i})
其中\left | S_{i} \right |(i,=1,2,'…k)为样本子集 Si 中包含的样本数,\left | S \right |为样本集S中包
含的样本数。信息增益越大,说明使用属性A划分后的样本子集越纯,越有
利于分类。

4.实例讲解

 ID3算法在每个结点处选取最高信息增益分支属性进行分裂 

在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本纯度提升

以下表 为例进行讲解,比较各因素的信息增益

基于outlook(天气)的划分

 基于temperature(温度)的划分

基于humidity(湿度) 的划分

基于windy(有无风) 的划分

综上:信息增益的大小:

天气:0.247

温度:0.029

湿度:0.151

有风:0.048

显然,信息增益最大的是: 天气 > 湿度 > 有风 > 温度

最终得到的决策树如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值