Xgboost 原理笔记

本文是关于Xgboost算法的原理笔记,包括数据预处理、离散化的原因和方法,以及处理不平衡数据的策略。讨论了Xgboost与随机森林、Adaboost、GBDT的区别,并介绍了Xgboost的优化特点,如列采样、正则项等,强调其在泛化、性能和扩展性上的优势。
摘要由CSDN通过智能技术生成

Xgboost 原理笔记

数据描述:
Y:是否下单
X: 用户属性:用户id、是否是新用户的属性、渠道;
商品属性:商品id、商品类别、跟踪码、商品、商品品牌、商品价格、仓位;
行为数据:下单总量、用户1日内对该商品加购次数、商品最近3日内点击的总量、用户3日内对同类商品的加购次数、用户1日内对该商品加购次数、用户总点击的总量、用户总加购的总量 、用户总下单的总量、用户点击和下单量比、用户加购和下单量比等等。

枚举当时在做数据处理相关时候的简单栗子:
1、对于数据缺失值,根据有全的数据的列相同的数值取平均数或者中位数进行填充。
对于数据缺失值,或者针对这些缺失值进行预测,把缺失值当做y,利用已知的数据,运用 随机森林预测。

2、把渠道那列做成一个one-hot的编码。

3、仓位相同的拿出来,然后取均值,先把空的扔了,然后获取中位数。这个就是先验性的均值。再把值拿出来,赋予到这个缺失值中。

5、如果有俩个是没有渠道的信息的话,就可以补成no,所以虽然是四列,但是本质上是三列。补的方法就是看渠道那个渠道是最多的。就把缺失值补上去。

6 对数据进行离散化。离散化什么意思呢:就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。
进行离散化的原因:
6.1、易于快速迭代模型;
6.2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
6.3、异常数据在离散化后的特征后有很强的鲁棒性:比如一个美女特征是体重>50kg是1,否则0。如果特征没有离散化,一个异常数据“体重是100kg” 就困给模型带来困扰。
6.4、是广

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值