XGB算法梳理

最新推荐文章于 2022-04-21 20:43:23 发布

ecy_uooki

最新推荐文章于 2022-04-21 20:43:23 发布

阅读量600

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/erciyuan_/article/details/89194721

版权

XGBoost是一种高效的梯度增强树工具，常用于数据挖掘比赛。它基于GBDT算法，通过正则化、损失函数优化和并行化实现，处理缺失值能力强。算法通过不断添加树并优化目标函数，适用于回归和分类问题。在sklearn中，XGBoost有特定的参数设置。

摘要由CSDN通过智能技术生成

引言

XGBoost（eXtreme Gradient Boosting）是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，如果你的算法预测结果不好，赶紧试试XGBoost吧。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI, Sungrid Engine等各个平台上面运行，并且保留了单机并行版本的各种优化，使得它可以很好地解决于工业界规模的问题。

XGBoost其实是对前面所讲的GBDT算法的一种改良实现，主要包括了正则化、损失函数、学习策略、并行实现等一些方面。

1、算法原理

算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。
在这里插入图片描述
　注：w_q(x)为叶子节点q的分数，f(x)为其中一棵回归树

如下图例子，训练出了2棵决策树，小孩的预测分数就是两棵树中小孩所落到的结点的分数相加。爷爷的预测分数同理。

在这里插入图片描述

2、损失函数

对于回归问题，我们常用的损失函数是MSE，即：
在这里插入图片描述
对于分类问题，我们常用的损失函数是对数损失函数：

XGBoost目标函数定义为：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ecy_uooki CSDN认证博客专家 CSDN认证企业博客

码龄9年

43: 原创

40万+: 周排名

112万+: 总排名

8万+: 访问

: 等级

845: 积分

23: 粉丝

47: 获赞

6: 评论

324: 收藏

私信

关注

热门文章

最新评论

随机森林算法梳理
qq_36237433: 楼主案例很好，接楼主的案例：：学术成果|基于随机森林的邻里环境对点对点(P2P)住宿的影响 https://mp.weixin.qq.com/s/QYdBymSTooSbol8vjkhNrQ
Multi-Adversarial Domain Adaptation
m0_47553696: 请问要到了pytorch版本的了吗？
idea 导入文件为j问题解决
与你习惯: 感谢，折腾了半小时0.0
迁移学习
小王。。: 请问最后这里有具体的论文或可复现的代码么
迁移学习
重名又重名: 开头是2015年吧？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。