机器学习算法总结之决策树

一、先了解熵的概念:

        根据以上定义,经验熵是在训练集上有若干分类。条件熵则是用特征A的取值将训练集分类。

        熵表示的是数据中包含的信息量大小。熵越小,数据的纯度越高,也就是说数据越趋于一致,这是我们希望的划分之后每个子节点的样子。

       信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是说,用属性a来划分训练集,得到的结果中纯度比较高。

       之所以引入了信息增益比,是由于信息增益的一个缺点。那就是:信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项,解决了这个问题。

 Gini指数:

        既然基尼指数和熵都可以表示数据的不确定性,不纯度。那么这两个有什么区别呢?

  • Gini指数的计算不需要对数运算,更加高效
  • Gini指数更偏向于连续属性,熵更偏向于离散属性
  • 基尼指数越大,样本集合的不确定性也就越大(纯度越小)。
  • 熵越大,随机变量的不确定性就越大(纯度越小)。
  • 信息增益越大,纯度提升越大。

````````````````````````````````````````````````````````````````````````````````````````````````````````````````````````````````````

二、决策树——分类与回归方法

        数据挖掘或机器学习中使用的决策树有两种主要类型:

     (1)分类树分析是指预测结果是数据所属的类(比如某个电影去看还是不看)

     (2)回归树分析是指预测结果可以被认为是实数(例如房屋的价格,或患者在医院中的逗留时间) 

而术语分类回归树(CART,Classification And Regression Tree)分析是用于指代上述两种树的总称,由Breiman等人首先提出。

三、决策树的生成

        决策树有很多算法,它们的区别是所选择的划分标准不一样,ID3选择的是信息增益,C4.5选择的是信息增益比,当CART是分类树时,采用GINI值作为节点分裂的依据;当CART是回归树时,采用样本的最小方差作为节点分裂的依据(信息增益(ID3)、信息增益率(C4.5)、基尼系数(CART))。

        1. ID3 算法:核心是在决策树各个结点上应用信息增益准则选择信息增益最大且大于阈值的特征,递归地构建决策树。ID3 相当于用极大似然法进行概率模型的选择。由于算法只有树的生成,所以容易产生过拟合。

ID3仅仅适用于二分类问题。ID3仅仅能够处理离散属性。

        2. C4.5 算法:C4.5 算法与 ID3 算法相似,改用信息增益比来选择特征。

C4.5克服了ID3仅仅能够处理离散属性的问题,以及信息增益偏向选择取值较多特征的问题,使用信息增益比来选择特征。信息增益比 = 信息增益 /划分前熵 。选择信息增益比最大的作为最优特征。

C4.5处理连续特征是先将特征取值排序,以连续两个值中间值作为划分标准。尝试每一种划分,并计算修正后的信息增益,选择信息增益最大的分裂点作为该属性的分裂点。

        3.CART 算法:

        CART 既可以用于分类也可以用于回归。它假设决策树是二叉树,内部结点特征的取值为 " 是 " 和 " 否 " 。递归地构建二叉树,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则。

        CART与ID3,C4.5不同之处在于CART生成的树必须是二叉树。也就是说,无论是回归还是分类问题,无论特征是离散的还是连续的,无论属性取值有多个还是两个,内部节点只能根据属性值进行二分。ID3、C4.5可以是多叉树或二叉树。
 

        回归树中,使用平方误差最小化准则来选择特征并进行划分。每一个叶子节点给出的预测值,是划分到该叶子节点的所有样本目标值的均值,这样只是在给定划分的情况下最小化了平方误差。要确定最优化分,还需要遍历所有属性,以及其所有的取值来分别尝试划分并计算在此种划分情况下的最小平方误差,选取最小的作为此次划分的依据。由于回归树生成使用平方误差最小化准则,所以又叫做最小二乘回归树

        分类树种,使用Gini指数最小化准则来选择特征并进行划分;

        Gini指数表示集合的不确定性,或者是不纯度。基尼指数越大,集合不确定性越高,不纯度也越大。这一点和熵类似。另一种理解基尼指数的思路是,基尼指数是为了最小化误分类的概率。

四、决策树剪枝

        决策树算法很容易过拟合(overfitting),剪枝算法就是用来防止决策树过拟合,提高泛化性能的方法。

        剪枝分为预剪枝与后剪枝。预剪枝是指在决策树的生成过程中,对每个节点在划分前先进行评估,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点。后剪枝是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来泛化性能的提升,则将该子树替换为叶节点。

        那么怎么来判断是否带来泛化性能的提升那?最简单的就是留出法,即预留一部分数据作为验证集来进行性能评估。

五、总结

        决策树算法主要包括三个部分:特征选择、树的生成、树的剪枝。常用算法有ID3、C4.5、CART。——生成只考虑局部最优,剪枝则考虑全局最优。

  • 特征选择。特征选择的目的是选取能够对训练集分类的特征。使用某个特征分类后,分出来的每个类中的训练集样本纯度比较高,即他们更趋向于一类。特征选择的关键是准则:信息增益、信息增益比、Gini指数。
  • 决策树的生成。通常是利用信息增益最大、信息增益比最大、Gini指数最小作为特征选择的准则。从根节点开始,递归的生成决策树。相当于是不断选取局部最优特征,或将训练集分割为基本能够正确分类的子集。
  • 决策树的剪枝。决策树的剪枝是为了防止树的过拟合,增强其泛化能力。包括预剪枝和后剪枝。

       从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。决策树的路径具有互斥且完备的性质。

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值