数据挖掘实训周报week4

最新推荐文章于 2022-09-12 21:44:24 发布

salty_dong

最新推荐文章于 2022-09-12 21:44:24 发布

阅读量180

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/salty_dong/article/details/109181445

版权

本周在数据挖掘实训中深入研究了XGBoost（GBDT）。GBDT是一种通过梯度下降树实现的优秀算法，适用于分类和回归任务。它通过连续迭代减少残差，选择CART树作为弱分类器。尽管GBDT不能直接生成新特征，但能用于特征组合以处理非线性数据。其优点包括处理混合类型数据、高准确率和对异常值的鲁棒性，但并行训练受限。

摘要由CSDN通过智能技术生成

本周主要看了一下XGBT的相关知识。

gbdt全称梯度下降树，在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一。其有三个优点，一是效果确实不错，二是即可以用于分类也可以用于回归，三是可以筛选特征。

首先gbdt 是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。
在这里插入图片描述
gbdt通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。
模型最终可以描述为：

Fm(x)=∑m=1MT(x;θm)Fm(x)=∑m=1MT(x;θm)
模型一共训练M轮，每轮产生一个弱分类器 T(x;θm)T(x;θm)。弱分类器的损失函数

θ^{m=argminθm∑i=1NL(yi,Fm−1(xi)+T(xi;θm))θ}m=arg⁡minθm⁡∑i=1NL(yi,Fm−1(xi)+T(xi;θm))

gbdt选择特征的细节其实是想问你CART Tree生成的过程。这里有一个前提，gbdt的弱分类器默认选择的是CART TREE。其实也可以选择其他弱分类器的，选择的前提是低方差和高偏差。框架服从boosting 框架即可。

gbdt 本身是不能产生特征的，但是我们可以利用gbdt去产生特征的组合。在CTR预估中，工业界一般会采用逻辑回归去进行处理,在我的上一篇博文当中已经说过，逻辑回归本身是适合处理线

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。