决策树——三种基本算法

夏季八起

于 2022-11-09 16:31:38 发布

阅读量2k

点赞数 2

文章标签：算法决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_43424329/article/details/127761025

版权

前言

决策树算法学习

一、ID3

ID3算法使用信息增益来划分节点，信息增益越大说明使用该属性划分获得的纯度越高。
在这里插入图片描述
ID3的不足：信息增益准则对取值较多的属性所有偏好！
例如：使用身份证号对全国人民进行分类，显然这个属性的取值的个数为全国人口总数，每一个人就是一个类别，信息熵为0，信息增益最大。更加直观一点就是，信息增益的本质是通过选择当前属性，使得当前节点的纯度最大(即样本尽可能都属于同一类)。**当样本总数一定的情况下，属性取值越多，那么每个取值下的样本数量越少，纯度越大。**从信息熵的角度出发就是当类别越多，不确定性越大，纯度越低。

案例

在这里插入图片描述

在这里插入图片描述

二、C4.5

C4.5算法选择信息增益率作为属性划分的条件，信息增益率越大越好。
在这里插入图片描述
C4.5算法对可取值数目较少的属性有所偏好，故C4.5算法采用一个启发式的思想，先从候选划分属性中找出信息增益高于平均水平的属性，在从中选择增益率最高。

三、CART

cart算法采用基尼系数对属性进行划分，基尼系数越小越好。
在这里插入图片描述

案例

参考：基尼系数案例

四、预剪枝和后剪枝

预剪枝基于贪心，虽然能节省训练时间和防止过拟合，但是有欠拟合的风险。
后剪枝自底向上进行判断，虽然有着良好的泛化性能，但是训练时间过长。

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
决策树——三种基本算法

决策树算法学习
复制链接

扫一扫

夏季八起 CSDN认证博客专家 CSDN认证企业博客

码龄6年

49: 原创

40万+: 周排名

208万+: 总排名

3万+: 访问

: 等级

541: 积分

12: 粉丝

28: 获赞

8: 评论

150: 收藏

私信

关注

热门文章

分类专栏

最新评论

差分隐私——高斯机制(The Gaussian Mechanism)
Somia8889: 对于c，我的理解是：c不是一个已有的，是咱可以去自己定义的超参数，他首先希望ln后面那些（就是sigma在分母，分子上有epsilon,delta f, sigma的那一堆）可以取ln，那么这些必须大于0，因此c有个bound是大于1；但是这还不够，它还希望整个ln是大于0的（应该是因为这样限制之后比较好确定概率大于0），所以ln后面那一堆必须大于1，然后这样之后又可以bound c到大于等于3/2。不知道这样理解对不对？
差分隐私——高斯机制(The Gaussian Mechanism)
佳佳布朗尼: f（D'）是f（D）+德尔塔f吗，前面不是有个符号，放进去就是-德尔塔f，为啥还是加啊
差分隐私——高斯机制(The Gaussian Mechanism)
滕梓荆谪守巴陵郡: 不是假设的范围，而是因为前面privacy loss随机变量的bound是被delta限制住的，概率至多是1，所以delta不会大于1，因此带入到定理中对c平方的下界限制，就会得到c大于1.定理中取的这个1.25是故意设计的，不过应该还可以在限制得更小一些。
差分隐私——高斯机制(The Gaussian Mechanism)
JohntyZhou: 这个地方是假设的c的范围，跟前面的epsilon的假设是一样的道理
差分隐私——高斯机制(The Gaussian Mechanism)
zrc___: c是什么啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。