决策树学习内容整理

在机器学习算法中,决策树无疑是十分经典的算法,由于其具有良好的解释性而被被大家利用。作为一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。
在本文将重点介绍分类树的相关内容
常用的决策树算法有ID3、C4.5和CART算法,分别对应的划分依据为信息熵、信息增益率和基尼系数。

一、关于ID3的总结

ID3算法是典型的建立在奥卡姆剃刀原理上的算法,故越是小型的决策树越优于大的决策树
奥卡姆剃刀原理:在科学研究任务中,应该优先使用较为简单的公式或者原理,而不是复杂的。在机器学习任务中,即代表可以通过减小模型的复杂度来降低过拟合的风险,即模型在能够较好拟合训练集(经验风险)的前提下,尽量减小模型的复杂度(结构风险)。
1.1思想
查阅相关资料后我们发现,随着信息熵的增大,样本纯度也会随之逐渐降低,ID3算法的核心思想就是通过信息增益来度量特征选择,选择信息增益最大的特征进行分裂,而该算法采用自上而下的贪婪遍历搜索来遍历所有可能的决策树空间,其步骤大致为
1.初始化特征和数据集合
2.计算数据集合信息熵和所有特征的条件熵,并从中选择信息增益最大的特征作为当前的决策节点。
3.更新数据集合和特征集合(删除上一步使用的特征)
4.重复2、3步,当子集值为单一特征时,确定为分支叶子节点
1.2划分标准
ID3算法的划分标准为信息增益,它代表得知特征A的信息而使得样本集合不确定性减少的程度
数据集的信息熵计算方法为在这里插入图片描述
其中 Ck 表示集合 D 中属于第 k 类样本的样本子集。
针对某个特征 A,对于数据集 D 的条件熵H(D|A)为

在这里插入图片描述
其中Di代表D中特征A取第 i 个值的样本子集,Dik表示Di中属于第k类的样本子集,信息增益=信息熵-条件熵
在这里插入图片描述
信息增益越大表示使用特征 A 来划分所获得的“纯度提升越大”
1.3缺点
1.3.1 ID3 没有剪枝策略,容易过拟合;
1.3.2 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;
1.3.3 只能用于处理离散分布的特征;
1.3.4 没有考虑缺失值。

二、关于C4.5的总结

C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。
2.1思想
C4.5在ID3有的缺点上做出了如下的改进

  1. 引入信息增益率作为划分标准
  2. 引入悲观剪枝策略进行后剪枝
    2.2划分标准
    利用信息增益率可以克服信息增益的缺点,其公式为
    在这里插入图片描述
    HA(D)为特征A的固有值
    查询资料后得到结论:信息增益率对可取值较少的特征有所偏好(分母越小,整体越大),故C4.5算法并不是直接用增益率最大的特征进行划分,而是使用一个启发式方法:先从候选划分特征中找到信息增益高于平均值的特征,再从中选择增益率最高的。
    2.3剪枝
    预剪枝在节点划分前来确定是否继续增长。
    预剪枝的决定因素为三点:
    1.节点内数据样本低于某一阈值
    2.所有节点特征都已分裂
    3.节点划分前准确率比划分后准确率高
    优点:预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间,但另一方面它是基于“贪心”策略,会带来欠拟合风险
    后剪枝在已经生成的决策树上进行剪枝,从而得到简化版的剪枝决策树。
    C4.5 采用的悲观剪枝方法,用递归的方式从低往上针对每一个非叶子节点,评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降,则这棵子树就可以被替换掉。C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率
    后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。但同时其训练时间会大的多。

2.4缺点
剪枝策略仍可以被优化;
1.C4.5 用的仅为多叉树,而我们知道用二叉树效率更高
2.C4.5 只能用于解决分类问题
3.C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算时间花费较多

三、关于CART的总结

要点分析:ID3 和 C4.5 虽然在对训练样本集的学习中可以尽可能多地挖掘信息,但是其生成的决策树分支、规模都比较大,CART 算法的二分法可以简化决策树的规模,提高生成决策树的效率。
3.1 思想 CART算法采用的是一种二分递归分割的技术,将当前样本分成两个子样本集,使得生成的非叶子节点都有两个分支。因此CART实际上是一颗二叉树
3.2特点 CART是一颗二叉树且既是分类树又是回归树。

当CART是分类树的时候,采用GINI值作为分裂节点的依据,当CART作为回归树的时候,使用样本的最小方差作为分裂节点的依据

3.3划分标准
熵模型拥有大量耗时的对数运算,基尼指数在简化模型的同时还保留了熵模型的优点。基尼指数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。这和信息增益(率)正好相反。
在这里插入图片描述
k为类别
基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。因此基尼指数越小,则数据集纯度越高。基尼指数偏向于特征值较多的特征,类似信息增益。基尼指数可以用来度量任何不均匀分布,是介于 0~1 之间的数,0 是完全相等,1 是完全不相等

3.4 剪枝策略
采用“基于代价复杂度的剪枝”的方法进行后剪枝,具体还不太清楚呃呃呃呃😭

最后的最后

希望当自己忘了决策树的时候来自查,所以顺便附上大概三种算法的区别吧
划分标准的差异: ID3 使用信息增益偏向特征值多的特征,C4.5 使用信息增益率克服信息增益的缺点,偏向于特征值小的特征,CART 使用基尼指数克服 C4.5 需要求 log 的巨大计算量,偏向于特征值较多的特征。
使用场景的差异: ID3 和 C4.5 都只能用于分类问题,CART 可以用于分类和回归问题;ID3 和 C4.5 是多叉树,速度较慢,CART 是二叉树,计算速度很快。
样本特征的差异: ID3 和 C4.5 层级之间只使用一次特征,CART 可多次重复使用特征。
剪枝策略的差异 :ID3 无剪枝策略,C4.5 是通过悲观剪枝策略来修正树的准确性,而 CART 是通过代价复杂度剪枝。

大概决策树的总结就先到这了,不排除以后会进行补充,如果对大家有帮助,不妨点赞资瓷一下😅

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值