GDBT--分类预测篇

前面两篇GDBT–理解梯度提升原理篇GDBT-回归预测篇已经详细介绍了GDBT的基本原理与思想,并且就回归预测举了一个例子。在文章的最后提到,GDBT不仅可以做回归也可以做分类,本文主要介绍GDBT分类的原理。与上篇的回归不同的在于使用的切割特征生成二叉树所用的判定函数不同,cart回归树,使用平方差损失来衡量当前特征的切割点是否为最佳切割点,cart分类树则使用基尼指数来衡量当前切割点是否为最佳切割点,即数据集D的纯度可用基尼指数来衡量。

Gini(D)=k=1;k!=1|y|pkpk G i n i ( D ) = ∑ k = 1 ; k ! = 1 | y | p k p k ′

=1k=1;k!=1|y|p2k = 1 − ∑ k = 1 ; k ! = 1 | y | p k 2

直观理解公式,为抽中某个样本的概率与抽不中的概率乘积,如果乘积的累加之和越大,则反应了从样本D中随机取两个样本,这两个样本类别标记不一致的概率越大。则反应了集合样本D的纯度越低,反之基尼指数越小则数据集D的纯度越高。针对样本的某一属性a的基尼指数,将样本划分为V个集合,求出使得基尼指数最小的属性a的切割点(补充具体实践的做法,先遍历特征在遍历特征里的具体值,找出某个特征中的最佳切割点作为划分二叉树生成子节点的依据):
Giniindex(D,a)=v=1V|Dv||D|Gini(Dv) G i n i − i n d e x ( D , a ) = ∑ v = 1 V | D v | | D | G i n i ( D v )

在具体应用GDBT包时你需要考虑的是,树的深度,以及准确率作为终止条件,同时也要考虑到过拟合的情况,可以使用预剪枝与后剪枝来防止过拟合,有趣的是防止过拟合不仅仅可以通过剪枝,树也可以使用dropout来防止过拟合,虽然效果以依赖具体的应用场景。作为想要学习kaggle竞赛利器xgboost,学习GDBT的原理与思想是你的必经之路,笔者也好奇xgboost是如何神奇的。所以接下来的文章将会详细介绍有关xgboost的相关内容,感兴趣的童鞋关注公共号一起学习研究吧!


这里写图片描述

CART 分类与回归树 https://www.jianshu.com/p/b90a9ce05b28
《机器学习》周志华

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值