XGB算法梳理

最新推荐文章于 2024-06-21 11:53:38 发布

LongfeiZhou

最新推荐文章于 2024-06-21 11:53:38 发布

阅读量8.6k

点赞数 1

分类专栏：大数据分析算法梳理文章标签： CART XGB 整理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012037852/article/details/88206106

版权

大数据分析同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

目录

4.分裂节点算法

6.对缺失值的处理

8.sklearn参数

1.CART树

CART算法流程：

若满足停止分裂条件（样本个数小于预定阈值，或Gini指数小于预定阈值（样本基本属于同一类，或没有特征可供分裂），则停止分裂；
否则，选择最小Gini指数进行分裂；
递归执行1-2步骤，直至停止分裂。

2.算法原理

xgboost对应就是一堆CART树。算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

3.损失函数

第一项为训练误差，第二项为正则化项，用来刻画模型的复杂程度。具体形式将在（5.正则化）中介绍。

XGBoost度损失函数进行了二阶泰勒展开：

4.分裂节点算法

基于空间切分去构造一颗决策树是一个NP难问题，我们不可能去遍历所有树结构，因此，XGBoost使用了和CART回归树一样的想法，利用贪婪算法，遍历所有特征的所有特征划分点，不同的是使用上式目标函数值作为评价函数。具体做法就是分裂后的目标函数值比单子叶子节点的目标函数的增益，同时为了限制树生长过深，还加了个阈值，只有当增益大于该阈值才进行分裂。

5.正则化

注意：这里出现了γ和λ，这是xgboost自己定义的，在使用xgboost时，你可以设定它们的值，显然，γ越大，表示越希望获得结构简单的树，因为此时对较多叶子节点的树的惩罚越大。λ越大也是越希望获得结构简单的树。

6.对缺失值的处理

XGB训练数据的时候，它使用没有缺失的数据去进行节点分支。然后我们将特征上缺失的数据尝试放左右节点上，看缺失值应当分到那个分支节点上。我们把缺失值分配到的分支称为默认分支。这能大大提升算法的效率。

7.优缺点

优点：

xgboost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。

GB中使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。

上面提到CART回归树中寻找最佳分割点的衡量标准是最小化均方差，xgboost寻找分割点的标准是最大化，lamda，gama与正则化项相关

缺点：

算法采用贪心策略，较为耗时。

8.sklearn参数

objective [ default=reg:linear ]
定义学习任务及相应的学习目标，可选的目标函数如下：

“reg:linear” –线性回归。

“reg:logistic” –逻辑回归。

“binary:logistic” –二分类的逻辑回归问题，输出为概率。

“binary:logitraw” –二分类的逻辑回归问题，输出的结果为wTx。

“count:poisson” –计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7。(used to safeguard optimization)

“multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class（类别个数）

“multi:softprob” –和softmax一样，但是输出的是ndata * nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。没行数据表示样本所属于每个类别的概率。

’eval_metric’ 评估指标:对于回归问题，默认值是rmse，对于分类问题，默认值是error。
“rmse”: 均方根误差

“logloss”: 负对数似然函数值

“error”: 二分类错误率(阈值为0.5)

“merror”: 多分类错误率

“mlogloss”: 多分类logloss损失函数

“auc”: ROC曲线下面积

"mae"：平均绝对误差

lambda [default=0]
L2 正则的惩罚系数

alpha [default=0]
L1 正则的惩罚系数

lambda_bias
在偏置上的L2正则。缺省值为0

eta [default=0.3]
为了防止过拟合，更新过程中用到的收缩步长。在每次提升计算之后，算法会直接获得新特征的权重。 eta通过缩减特征的权重使提升计算过程更加保守。缺省值为0.3 。取值范围为：[0,1]

max_depth [default=6]
数的最大深度。缺省值为6 ，取值范围为：[1,∞]

min_child_weight [default=1]
孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative 。取值范围为: [0,∞]

tree_method[default=’auto’]
可选 {‘auto’, ‘exact’, ‘approx’} 贪心算法(小数据集)/近似算法(大数据集)

9.应用场景

分类，回归

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

LongfeiZhou CSDN认证博客专家 CSDN认证企业博客

码龄11年

25: 原创

32万+: 周排名

181万+: 总排名

5万+: 访问

: 等级

751: 积分

17: 粉丝

35: 获赞

10: 评论

133: 收藏

私信

关注

热门文章

分类专栏

最新评论

图解《字典学习》
m0_59576620: 请问您的代码几个.m文件运行顺序是什么呢
SVD奇异值分解在推荐系统中的应用及实现
m0_56798183: 为什么不能运行
图解《字典学习》
m0_47765941: 讲得很棒
图解《字典学习》
qq_45181888 回复艾娜2022: V（：，1）是V的第一列，即（-0.7 -0.7）的转置，S（1，1）就是S的第一行第一列的数3.1。然后把他俩相乘，会得到（-2.17 -2.17）的转置。之所以计算会有一点偏差是因为博主的这个数是已经四舍五入的数，直接在matlab上运行就会得到和博主一样的结果（-2.23 -2.23）的转置。
图解《字典学习》
qq_45181888: 为什么3.6奇异值分解得到的U5×5结果和博主不一样呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。