数据挖掘实训周报week4

本周在数据挖掘实训中深入研究了XGBoost(GBDT)。GBDT是一种通过梯度下降树实现的优秀算法,适用于分类和回归任务。它通过连续迭代减少残差,选择CART树作为弱分类器。尽管GBDT不能直接生成新特征,但能用于特征组合以处理非线性数据。其优点包括处理混合类型数据、高准确率和对异常值的鲁棒性,但并行训练受限。
摘要由CSDN通过智能技术生成

本周主要看了一下XGBT的相关知识。

gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一。其有三个优点,一是效果确实不错,二是即可以用于分类也可以用于回归,三是可以筛选特征。

首先gbdt 是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。
在这里插入图片描述
gbdt通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。
模型最终可以描述为:

Fm(x)=∑m=1MT(x;θm)Fm(x)=∑m=1MT(x;θm)
模型一共训练M轮,每轮产生一个弱分类器 T(x;θm)T(x;θm)。弱分类器的损失函数

θm=argminθm∑i=1NL(yi,Fm−1(xi)+T(xi;θm))θm=arg⁡minθm⁡∑i=1NL(yi,Fm−1(xi)+T(xi;θm))

gbdt选择特征的细节其实是想问你CART Tree生成的过程。这里有一个前提,gbdt的弱分类器默认选择的是CART TREE。其实也可以选择其他弱分类器的,选择的前提是低方差和高偏差。框架服从boosting 框架即可。

gbdt 本身是不能产生特征的,但是我们可以利用gbdt去产生特征的组合。在CTR预估中,工业界一般会采用逻辑回归去进行处理,在我的上一篇博文当中已经说过,逻辑回归本身是适合处理线

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值