GDBT--分类预测篇

最新推荐文章于 2022-09-30 11:40:56 发布

zhupc_

最新推荐文章于 2022-09-30 11:40:56 发布

阅读量654

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/u014296502/article/details/80709576

版权

机器学习同时被 2 个专栏收录

26 篇文章 3 订阅

订阅专栏

算法

11 篇文章 1 订阅

订阅专栏

前面两篇GDBT–理解梯度提升原理篇与GDBT-回归预测篇已经详细介绍了GDBT的基本原理与思想，并且就回归预测举了一个例子。在文章的最后提到，GDBT不仅可以做回归也可以做分类，本文主要介绍GDBT分类的原理。与上篇的回归不同的在于使用的切割特征生成二叉树所用的判定函数不同，cart回归树，使用平方差损失来衡量当前特征的切割点是否为最佳切割点，cart分类树则使用基尼指数来衡量当前切割点是否为最佳切割点，即数据集D的纯度可用基尼指数来衡量。

G i n i (D) = \sum k = 1; k! = 1 | y | p k p k'

$Gini(D)=\sum_{k=1 ;k!=1}^{|y|}p_kp_{k'}$

= 1 - \sum k = 1; k! = 1 | y | p 2 k

$=1-\sum_{k=1 ;k!=1}^{|y|}p_k^2$
直观理解公式，为抽中某个样本的概率与抽不中的概率乘积，如果乘积的累加之和越大，则反应了从样本D中随机取两个样本，这两个样本类别标记不一致的概率越大。则反应了集合样本D的纯度越低，反之基尼指数越小则数据集D的纯度越高。针对样本的某一属性a的基尼指数，将样本划分为V个集合，求出使得基尼指数最小的属性a的切割点（补充具体实践的做法，先遍历特征在遍历特征里的具体值，找出某个特征中的最佳切割点作为划分二叉树生成子节点的依据）：

G i n i - i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v)

$Gini-index(D,a)=\sum_{v=1}^{V} \frac{|D^v|}{|D|}Gini(D^v)$
在具体应用GDBT包时你需要考虑的是，树的深度，以及准确率作为终止条件，同时也要考虑到过拟合的情况，可以使用预剪枝与后剪枝来防止过拟合，有趣的是防止过拟合不仅仅可以通过剪枝，树也可以使用dropout来防止过拟合，虽然效果以依赖具体的应用场景。作为想要学习kaggle竞赛利器xgboost,学习GDBT的原理与思想是你的必经之路，笔者也好奇xgboost是如何神奇的。所以接下来的文章将会详细介绍有关xgboost的相关内容，感兴趣的童鞋关注公共号一起学习研究吧！

CART 分类与回归树 https://www.jianshu.com/p/b90a9ce05b28
《机器学习》周志华

zhupc_

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
GDBT--分类预测篇

前面两篇GDBT–理解梯度提升原理篇与GDBT-回归预测篇已经详细介绍了GDBT的基本原理与思想，并且就回归预测举了一个例子。在文章的最后提到，GDBT不仅可以做回归也可以做分类，本文主要介绍GDBT分类的原理。与上篇的回归不同的在于使用的切割特征生成二叉树所用的判定函数不同，cart回归树，使用平方差损失来衡量当前特征的切割点是否为最佳切割点，cart分类树则使用基尼指数来衡量当前切割点是否为最...
复制链接

扫一扫