几种决策树的原理

最新推荐文章于 2024-06-24 18:02:39 发布

Mark_Aussie

最新推荐文章于 2024-06-24 18:02:39 发布

阅读量106

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MarkAustralia/article/details/115297252

版权

ID3是采用信息增益作为特征选择的标准

每一次都选择是的信息增益最大的特征进行分裂，递归的构建决策树

分类完之后，结果得不确定越小越好。信息增益就是表示特征X使类Y的不确定减少得程度。

算法过程：

ID3算法有2大缺点：

类别越多的特征计算出的信息增益越大，易导致生成的决策树广而浅；

只能处理离散变量，不能处理连续变量；不能处理缺失值。

C4.5是在ID3的算法基础上，采用信息增益率来做为特征选择，通过增加类别的惩罚因子，规避了类别越多信息增益越大的问题，

同时也可以对连续变量通过均值离散化的方式，解决无法处理连续变量的问题，但是不能处理回归问题。

信息增益率等于信息增益除以该属性本身的熵。

算法过程：

不足：

由于C4.5需要对数据集进行多次扫描，算法效率较低
可以处理连续变量和缺失值
在树的构造过程中可以进行剪纸，避免过拟合

CART不再通过信息熵的方式选取最优划分特征，而是采用基尼系数，也叫基尼不纯度，

两者衡量信息量的作用相当，但是基尼系数由于没有对数运算，可大大减少计算开销。

既可以做分类，也可以做回归。只能形成二叉树。

算法过程：

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。

区别在于在选择划分点时的度量方式不同，C4.5使用信息增益，CART分类树使用基尼系数。

具体的思路如下，如m个样本的连续特征A有m个，从小到大排列为a1,a2,…,ama1,a2,…,am,则CART算法取相邻两样本值的中位数，

一共取得m-1个划分点，其中第i个划分点Ti表示为：Ti=(ai+a(i+1) )/ 2Ti=ai+ai+12。

对于这m-1个点，分别计算以该点作二元分类点时的基尼系数。

选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为at，则小于atat的值为类别1，大于atat的值为类别2，

实现连续特征的离散化。注意：与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。

回归树

回归树采用最小方差作为分裂规则。

对于任意划分特征A，对应的任意划分点s两边划分成得数据集D1和D2，

求出是D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小，这时对应的特征为特征值划分点。

其中，c1为D1数据集的样本输出均值，c2为D2数据集的样本输出均值

输出结果：最终叶子得均值或者中位数来预测输出结果

参考：

https://blog.csdn.net/cindy407/article/details/93138327

https://blog.csdn.net/update7/article/details/112376632

https://zhuanlan.zhihu.com/p/163303123

https://blog.csdn.net/qq_40006058/article/details/80530358

https://blog.csdn.net/chwei20002005/article/details/114653033

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Mark_Aussie CSDN认证博客专家 CSDN认证企业博客

码龄9年

227: 原创

12万+: 周排名

1万+: 总排名

41万+: 访问

: 等级

2805: 积分

207: 粉丝

325: 获赞

68: 评论

1407: 收藏

私信

关注

热门文章

分类专栏

nlp 60篇
Python 52篇
机器学习 47篇
AIOps 32篇
排序算法 9篇
C语言
JDK翻译 5篇
数据库 4篇

最新评论

Python Logging 的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
python 常用方法记录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Log BERT 日志异常检测
qq_45834721: 问一下大家有复现出论文里面提到的效果吗
Log BERT 日志异常检测
lym4a1: 这个本来就是没到语义那一级，你还在做这方面研究吗？你对参数异常这块有什么想法吗
LSTM理解及梯度消失与爆炸
CSDN-Ada助手: 百度的paddlepadle库做的不错，不知道是否用过呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。