决策树学习笔记1

最新推荐文章于 2024-11-06 10:55:54 发布

qq1656254328

最新推荐文章于 2024-11-06 10:55:54 发布

阅读量127

点赞数

分类专栏：机器学习文章标签：决策树机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46993421/article/details/105632492

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

ID3

1.主体思想是奥卡姆剃刀（小成本办大事）。用信息增益（relative entropy）来度量信
息选择，对信息增益大的特征进行分裂。

2.大致步骤：
初始化特征集合和数据集合
计算数据集合信息熵（离散随机事件的出现概率）和所有特征的条件熵(在给定 X 的条件下 Y 的不确定性)
选择信息增益最大的特征作为决策节点
删除上一步使用的特征，按照特征值来划分不同分支的数据集合
重复以上操作

3.缺点
没有修枝策略，容易过拟合（overfitting）
信息增益对特征值数目多的有偏好，信息增益接近于1
只能用于处理离散分布的特征
没有考虑缺失值

C4.5

1.主题思想引入信息增益率，将连续特征离散化。
对于特征值缺失的情况，用没有缺失的样本子集所占比重来折算信
息增益率。将样本以不同概率划分到不同节点中。

2.大致步骤：
从候选特征中找到信息增益高于平均值的特征，从中选择增益率最
高的。

3.缺点
剪枝策略可继续优化
C4.5使用多叉树，用二叉树效率更高
C4.5只能用于分类（clustering）
C4.5在log2的运算太耗时，连续值还需要进行排序运算
只适用于能够驻留于内存的数据集，当训练集太大时，程序无法运
行

CART（Classification And Regression Tree）

1.主要思想分裂剪枝树选择

2.大致步骤：
分裂——进行二叉递归划分
剪枝——从最大树开始，每次剪去训练数据熵对整体性能贡献最小
的分裂节点，直到只剩下根节点
树选择——用测试集评估每颗剪枝树的预测性能

ID3、C4.5和CART三者的差异

划分特征：
ID3的核心是信息增益，偏好特征值多的特征
C4.5使用信息增益率克服ID3中信息增益的缺点，偏好特征值小的
特征
CART使用基尼系数解决了C4.5公式中log计算量大的问题，偏好特
征值较多的特征

应用方面：
ID3和C4.5都只能用于分类（clustering）问题，CART可以用于分
类（clustering）和回归（regression）问题

样本数据使用：
ID3和C4.5都只能使用一次特征值，而CART可以多次重复使用特征

剪枝策略

预剪枝
通过在节点划分之前确定是否继续增长

判断方法：
节点内数据样本低于某一阈值
所有节点特征都已经分裂
划分节点前准确率较低

目的
降低过拟合的风险，还可以减少训练时间。

缺点
基于贪心算法（不从整体最优上考虑，而是在某种意义上的局部最
优解），会带来欠拟合（数据离拟合曲线远，表现在模型在训练集
表现差，在测试集表现同样差）风险。

后剪枝
通过在已经生成的决策树上进行剪枝，进而得到简化版的决策树

实现方法
用递归的方式从低到高对每一个非叶子节点进行评估。如果剪枝过
后错误率是持平或者下降，这颗子树就可以被替换掉

优点大
欠拟合风险小，泛化能力一般胜过预剪枝

缺点
训练时间太多

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。