xgboost基本原理

最新推荐文章于 2023-03-15 19:44:21 发布

ukakasu

最新推荐文章于 2023-03-15 19:44:21 发布

阅读量298

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ukakasu/article/details/82855751

版权

机器学习专栏收录该内容

33 篇文章

订阅专栏

目标函数

在这里插入图片描述

其中，上式第一项称为误差函数，常见的误差函数有平方误差，logistic误差等等，第二项称为正则项，常见的有L1正则和L2正则，表示树的复杂度的函数，越小复杂度越低，泛化能力越强。
在这里插入图片描述

基学习器

分类树和回归树（CART）

树集成

在这里插入图片描述

模型学习

在这里插入图片描述
每一次保留原来的模型不变，加入一个新的函数f到我们的模型中。

f 的选择标准—最小化目标函数！

在这里插入图片描述

通过二阶泰勒展开等，我们得到了最终的目标函数：

在这里插入图片描述

在这里插入图片描述

G、H：与数据点在误差函数上的一阶、二阶导数有关，T：叶子的个数

在这里插入图片描述

切分点查找算法

在这里插入图片描述

上图中G都是各自区域内的gi总和，根据Gain（max）选择最优分割点。

缺点

在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间。
预排序方法（pre-sorted）：

首先，空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的结果（例如排序后的索引，为了后续快速的计算分割点），这里需要消耗训练数据两倍的内存。
其次，时间上也有较大的开销，在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。
最后，对cache优化不友好。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的cache miss。

参考：

https://blog.csdn.net/github_38414650/article/details/76061893

https://blog.csdn.net/sb19931201/article/details/52557382

博客等级

码龄10年

131
原创

123
点赞

490
收藏

80
粉丝

关注

私信

热门文章

分类专栏

python 14篇
java 10篇
HDFS 5篇
mapreduce 6篇
hive 4篇
hbase 3篇
pig 1篇
Hadoop 2篇
机器学习 33篇
大数据平台 14篇
linux 1篇
es 2篇
flume 1篇
深度学习 29篇
keras 5篇
spark 4篇
kafka 4篇
oracle 2篇
druid 1篇
数学 14篇
TensorFlow 10篇

最新评论

python中归一化、标准化模型保存与加载
开心秋水: 博主写的蛮好的, 有两个小问题, 第一个是现在新版本的sklearn中sklearn.externals里已经不包含joblib了, 如果要使用后者, 直接import joblib即可. 第二个是拼写错误, 模型加载和保存时的文件名不同, 应统一为"scaler01".
python中归一化、标准化模型保存与加载
weixin_50515511: min_max_scaler.inverse_transform()
HBase写入优化
G3-平头哥: 180000毫秒是30分钟？我没看懂
python中归一化、标准化模型保存与加载
十八画生减一画: 请教一下博主怎么反归一化的
python中归一化、标准化模型保存与加载
Goldbery: 你好，为什么我直接调用保存好的归一化模型会出现sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator. 求指点！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。