xgboost-light-gbm学习第一步---决策树

最新推荐文章于 2023-11-22 10:14:51 发布

AIzxmGOOD

最新推荐文章于 2023-11-22 10:14:51 发布

阅读量317

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40298996/article/details/80590049

版权

决策树就是树，然后根据条件开始分叉，主要是根据信息方面的三种方法进行分叉，

首先是信息熵的概念。Ent(D)=-pk log2 pk 的累加，一共分k类，（找不到累加符号）
信息熵是接下来三种分叉方法的基础，代表样本中纯度，纯度越高，熵越低，
决策树的分叉一般没有明确说是二叉树，可以是多叉树，但是在算法实现中很可能会用二叉树，因为写起来方便（个人猜测）

1.信息增益

信息增益就是分叉前的熵减去分叉后每个枝杈上的熵的和，就是信息增益，（ID3决策树是根据这个方法来进行分类的）

然后就根据根据哪条属性的信息增益越大就采用根据哪条进行分叉，

2增益率

增益率等于信息增益除以一个数（分开每个叉中元素数目Dv，总数为D，Dv/D log2 Dv/D 然后累加起来）

为什么采用增益率呢，肯定是信息增益有一定的不足，就是增益率偏向于可取值数目少的属性有所偏好（C4.5决策树就是采用这个方法），从候选划分属性中找出信息增益高于平均水平的属性，在丛中选择增益率最高的

3.基尼指数。

（CART决策树是采用基尼系数的）

直观来说是反应数据集中随机选取两个样本，类别标记不一致的概率。

基尼值=1-所有类别的概率的各自平方然后求和

基尼指数=每个分叉的样本数目除以总数目*分叉样本的基尼值然后累加起来，最后选择基尼指数最小的作为最优划分属性。

决策树存在剪枝操作用来处理过拟合的问题。预剪枝是从上向下，后剪枝是从下向上，不过都是从验证集精度是否提升来判断是否剪枝。

大体就是这样，个人菜鸡。有很多错误估计

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xgboost-light-gbm学习第一步---决策树

决策树就是树，然后根据条件开始分叉，主要是根据信息方面的三种方法进行分叉，首先是信息熵的概念。Ent(D)=-pk log2 pk 的累加，一共分k类，（找不到累加符号）信息熵是接下来三种分叉方法的基础，代表样本中纯度，纯度越高，熵越低，决策树的分叉一般没有明确说是二叉树，可以是多叉树，但是在算法实现中很可能会用二叉树，因为写起来方便（个人猜测）1.信息增益信息增益就是分叉前的熵减去分叉后每个枝杈...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。