决策树算法中,ID3使用信息增益(选大的),C4.5使用信息增益比(选大的),CART使用Gini(选小的)。
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。
决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
一棵决策树的生成过程主要分为以下3个部分:
1、特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而
衍生出不同的决策树算法。
2、决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。 树结构来说,递归结构是最容
易理解的方式。
3、剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。
决策树适用于数值型和标称型(离散型数据,变量的结果只在有限目标集中取值),能够读取数据集合,提取一些列数据中蕴含的规则。在分类问题中
使用决策树模型有很多的优点,决策树计算复杂度不高、便于使用、而且高效,决策树可处理具有不相关特征的数据、可很容易地构造出易于理解的规
则,而规则通常易于解释和理解。
决策树模型也有一些缺点,比如处理缺失数据时的困难、过度拟合以及忽略数据集中属性之间的相关性等。
分类与回归树(CART——Classification And Regression Tree):二元分裂
霍夫曼编码:利用大概率事件分配短码的思想。
--------------------------------------------------------------------------------------------
一个事件的信息量就是这个事件发生的概率的负对数。
信息熵:平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。
特征X的熵:
熵:表示随机变量的不确定性。变量不确定性越高,熵越高。
--------------------------------------------------------------------------------------------
条件熵:在一个条件下,随机变量的不确定性。
信息增益:熵 - 条件熵,在一个条件下,信息不确定性减少的程度。
特征X的信息增益 :信息增益 = entroy(前) - entroy(后)
信息增益比为:
--------------------------------------------------------------------------------------------
Gini系数是一种与信息熵类似的做特征选择的方式,可以用来数据的不纯度。
在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。
基尼不纯度为这个样本被选中的概率乘以它被分错的概率。
当一个节点中所有样本都是一个类时,基尼不纯度为零。
假设y的可能取值为{1, 2, ..., m},令fi是样本被赋予i的概率,则基尼指数可以通过如下计算:
CART算法中的基尼指数:
在CART(Classification and Regression Tree)算法中利用基尼指数构造二叉决策树。
Gini系数的计算方式如下:
其中,D表示数据集全体样本,pi表示每种类别出现的概率。
取个极端情况,如果数据集中所有的样本都为同一类,那么有p0=1,Gini(D)=0,显然此时数据的不纯度最低。
与信息增益类似,我们可以计算如下表达式:
上面式子表述的意思就是,加入特征X以后,数据不纯度减小的程度。
在做特征选择的时候,我们可以取ΔGini(X)最大的那个