xgboost-light-gbm学习第一步---决策树

决策树就是树,然后根据条件开始分叉,主要是根据信息方面的三种方法进行分叉,

  • 首先是信息熵的概念。Ent(D)=-pk log2 pk 的累加,一共分k类,(找不到累加符号)
  • 信息熵是接下来三种分叉方法的基础,代表样本中纯度,纯度越高,熵越低,
  • 决策树的分叉一般没有明确说是二叉树,可以是多叉树,但是在算法实现中很可能会用二叉树,因为写起来方便(个人猜测)

1.信息增益

信息增益就是分叉前的熵减去分叉后每个枝杈上的熵的和,就是信息增益,(ID3决策树是根据这个方法来进行分类的)

然后就根据根据哪条属性的信息增益越大就采用根据哪条进行分叉,

2增益率

增益率等于信息增益除以一个数(分开每个叉中元素数目Dv,总数为D,Dv/D log2 Dv/D 然后累加起来)

为什么采用增益率呢,肯定是信息增益有一定的不足,就是增益率偏向于可取值数目少的属性有所偏好(C4.5决策树就是采用这个方法),从候选划分属性中找出信息增益高于平均水平的属性,在丛中选择增益率最高的

3.基尼指数。

(CART决策树是采用基尼系数的)

直观来说是反应数据集中随机选取两个样本,类别标记不一致的概率。

基尼值=1-所有类别的概率的各自平方然后求和

基尼指数=每个分叉的样本数目除以总数目*分叉样本的基尼值 然后累加起来,最后选择基尼指数最小的作为最优划分属性。


决策树存在剪枝操作用来处理过拟合的问题。预剪枝是从上向下,后剪枝是从下向上,不过都是从验证集精度是否提升来判断是否剪枝。

大体就是这样,个人菜鸡。有很多错误估计


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值