机器学习之决策树

最新推荐文章于 2022-11-15 00:00:02 发布

ttinch

最新推荐文章于 2022-11-15 00:00:02 发布

阅读量394

点赞数

分类专栏：机器学习文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ttinch/article/details/102782472

版权

本文深入探讨了决策树的学习原理，包括生成过程、停止条件和优缺点。介绍了信息增益、信息增益率和基尼系数等划分选择标准，并详细讨论了预剪枝和后剪枝策略。此外，还涵盖了连续值处理和缺失值处理的方法，以及CART回归树的特性。最后，提到了决策树的参数调整和在时间序列数据上的应用局限性。

摘要由CSDN通过智能技术生成

机器学习之决策树

决策树原理
划分选择
剪枝
- 预剪枝
- 后剪枝
连续值与缺失值处理
- 连续值处理
- 缺失值处理
回归树（CART）
决策树参数
其它

决策树原理

决策树是一种分类和回归的基本模型，可从三个角度来理解它，即：

一棵树
if-then规则的集合，该集合是决策树上的所有从根节点到叶节点的路径的集合
定义在特征空间与类空间上的条件概率分布，决策树实际上是将特征空间划分成了互不相交的单元，每个从根到叶的路径对应着一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。实际中，哪个类别有较高的条件概率，就把该单元中的实例强行划分为该类别。

生成过程

一颗决策树的生成过程如下：

根据当前集合，选择最优划分属性。
根据属性不同，将样本划分到不同的子节点。
继续对子节点进行递归。

停止条件

停止条件：

当前结点包含的样本全属于同一类别，无需划分。
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。（标记为叶节点，类别设定为该节点所含样本最多的类别）
叶子节点的样本数或信息增益小于一定阈值。

前两种容易导致过拟合。

优缺点

优点：1. 可解释性强；2. 测试数据集时，分类速度快；3. 可以同时处理标称型和数值型数据；4. 适合处理有缺失属性的样本；5. 能够处理不相关的特征。
缺点：1. 容易过拟合；2. 异常值敏感；3. 容易忽略数据集中属性的相互关联。

划分选择

决策树学习的关键是如何选择最优划分属性。特征分类能力的衡量通常采用信息增益、信息增益率、基尼系数。

信息增益（ID3）

样本集合 $D$ 中第 $k$ 类所占比例为 $p_k(k=1,2,\cdots,n)$ ，则 $D$ 的信息熵为
${\rm Ent}(D)=-\sum_{k=1}^np_k \log_2p_k$
${\rm Ent}(D)$ 的最小值为0，最大值为 $log_{2}|y|$ ，且 ${\rm Ent}(D)$ 越小，纯度越高。
假设离散属性 $a$ 有 $V$ 个可能的取值 $\{ a^1,a^2,\cdots,a^V\}$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树

机器学习之决策树决策树原理生成过程停止条件优缺点划分选择信息增益（ID3）信息增益率（C4.5）基尼系数（CART）剪枝预剪枝后剪枝连续值与缺失值处理连续值处理缺失值处理回归树（CART）决策树参数其它决策树原理决策树是一种分类和回归的基本模型，可从三个角度来理解它，即：一棵树if-then规则的集合，该集合是决策树上的所有从根节点到叶节点的路径的集合定义在特征空间与类空间上的条件概率...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。