1.决策树算法
决策树算法包括了 ID3 算法、C4.5 以及 Cart 算法,这三类算法最主要的区别在于其特征选择准则的不同,其中 ID3 算法选择特征的依据是信息增益、C4.5是信息增益率,而 Cart 则是采用的基尼系数。
2.信息熵
信心熵即为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以用来衡量系统有序化程度。
3.信息增益
信息增益用来划分前样本数据集的不纯程度(熵)和划分后样本数据集的不纯程度(熵)的差值。 假设划分前样本数据集为S,并用属性A来划分样本集S,则按属性A划分S 的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵:
按属性A划分S后的样本子集的熵定义如下:假定属性A有k个不同的取值,从而将s划分为k个样本子集(S1,S2,…,Sk),则按属性A划分S后的样本子集的信息熵:
其中(i,=1,2,'…k)为样本子集 Si 中包含的样本数,为样本集S中包
含的样本数。信息增益越大,说明使用属性A划分后的样本子集越纯,越有
利于分类。
4.实例讲解
ID3算法在每个结点处选取最高信息增益的分支属性进行分裂
在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本纯度提升
以下表 为例进行讲解,比较各因素的信息增益
基于outlook(天气)的划分
基于temperature(温度)的划分
基于humidity(湿度) 的划分
基于windy(有无风) 的划分
综上:信息增益的大小:
天气:0.247
温度:0.029
湿度:0.151
有风:0.048
显然,信息增益最大的是: 天气 > 湿度 > 有风 > 温度
最终得到的决策树如下