树模型-决策树

最新推荐文章于 2024-07-11 14:40:27 发布

myazi

最新推荐文章于 2024-07-11 14:40:27 发布

阅读量970

点赞数

分类专栏：机器学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010865478/article/details/82708346

版权

本文介绍了决策树的基础知识，包括ID3、C4.5和CART算法，以及随机森林、Adaboost、GBDT和XGboost等增强学习模型。详细探讨了决策树的特征选择、建树过程和剪枝策略，如信息增益、基尼指数和最小均方差。此外，还提到了孤立森林在异常检测中的应用。

摘要由CSDN通过智能技术生成

树模型

1、决策树 ID3，C4.5，CART

2、随机森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（异常检测）

一、决策树

决策树是一种基本的分类和回归方法，用于分类主要借助每一个叶子节点对应一种属性判定，通过不断的判定导出最终的决策；用于回归则是用均值函数进行多次二分，用子树中数据的均值进行回归。决策树算法中，主要的步骤有：特征选择，建树，剪枝。下面对三种典型的决策树ID3，C4.5，CART进行三个步骤上的对比分析。

优点：

可解释性好，易可视化，特征工程中可用特征选择

样本复杂度 $O(log(n))$ ，维度灾难

缺点：

易过拟合，学习最优模型N-P难，贪心搜索局部最优

虽然是非线性模型，但不支持异或逻辑

数据不均衡时不适合决策树

决策属性不可逆

一、特征选择

对于决策树而言，每一个非叶子节点都是在进行一次属性的分裂，选择最佳的属性，把不同属性值的样本划分到不同的子树中，不断循环直到叶子节点。其中，如何选择最佳的属性是建树的关键，决策树的一个特征选择的指导思想是熵减思想。常见的选择方式有ID3的信息增益，C4.5的信息增益率，CART的基尼指数，最小均方差。

这里分别介绍这ID3，C4.5，CART决策树的特征选择标准

1）信息增益

为了清楚的理解信息增益，先了解信息论中信息熵，以及条件熵的概念。熵是一种对随机变量不确定性的度量，不确定性越大，熵越大。

假设离散随机变量 $Y$ 的概率分布为 $P(Y)$ ，则其熵为：

H (Y) = - \sum y P (y) l o g P (y) = - \sum k = 1 K | C k | | D | l o g | C k | | D |

$H(Y)=-\sum_{y}P(y)logP(y)\\ =-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}log\frac{|C_{k}|}{|D|}$
其中熵满足不等式

0≤H(Y)≤log|Y| 0 ≤ H ( Y ) ≤ l o g | Y | $0\leq H(Y) \leq log|Y|$ 。

在进行特征选择时尽可能的选择在属性 $X$ 确定的条件下，使得分裂后的子集的不确定性越小越好（各个子集的信息熵和最小），即 $P(Y|X)$ 的条件熵最小。

H (Y | X) = - \sum x, y P (x, y) l o g (P (y | x)) = - \sum

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

myazi CSDN认证博客专家 CSDN认证企业博客

码龄11年

57: 原创

9万+: 周排名

93万+: 总排名

15万+: 访问

: 等级

2079: 积分

98: 粉丝

52: 获赞

25: 评论

352: 收藏

私信

关注

热门文章

分类专栏

最新评论

Linux内核源代码情景分析笔记
TIMANDDAY: 我不明白__pa(x)这个宏，他把虚拟地址转换成物理地址，但是，如果我的内存没有4G，比如只有1G，甚至是512mb，那这个宏算出来岂不是错了
动态规划乘法表问题
浙江省第一延迟: 已经想清楚了，谢谢铁子的帖子，太顶了
动态规划乘法表问题
浙江省第一延迟: if(i+k<len&&str[i+k]!='\0') j=i+k; else j=size; 这里的j为什么是=size啊，而不是size-1，我觉得=size-1才对，但测试发现是 =size是正确的
Linux内核源代码情景分析笔记
夜半读核: 这本书不太好读，特别是内存管理这一章，我草草读了一遍，正打算读第二遍呢！
NLP中文分词C++实现
weixin_45598354: 请问如何调试？小贝一枚求解答，谢谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。