Xgboost 原理笔记

最新推荐文章于 2024-02-22 16:49:34 发布

@朱明珠

最新推荐文章于 2024-02-22 16:49:34 发布

阅读量365

点赞数

分类专栏： xgboost 算法文章标签： xgboost 算法

本文链接：https://blog.csdn.net/qq_26174823/article/details/87879851

版权

本文是关于Xgboost算法的原理笔记，包括数据预处理、离散化的原因和方法，以及处理不平衡数据的策略。讨论了Xgboost与随机森林、Adaboost、GBDT的区别，并介绍了Xgboost的优化特点，如列采样、正则项等，强调其在泛化、性能和扩展性上的优势。

摘要由CSDN通过智能技术生成

Xgboost 原理笔记

数据描述：
Y：是否下单
X: 用户属性：用户id、是否是新用户的属性、渠道；
商品属性：商品id、商品类别、跟踪码、商品、商品品牌、商品价格、仓位；
行为数据：下单总量、用户1日内对该商品加购次数、商品最近3日内点击的总量、用户3日内对同类商品的加购次数、用户1日内对该商品加购次数、用户总点击的总量、用户总加购的总量、用户总下单的总量、用户点击和下单量比、用户加购和下单量比等等。

枚举当时在做数据处理相关时候的简单栗子：
1、对于数据缺失值，根据有全的数据的列相同的数值取平均数或者中位数进行填充。
对于数据缺失值，或者针对这些缺失值进行预测，把缺失值当做y，利用已知的数据，运用随机森林预测。

2、把渠道那列做成一个one-hot的编码。

3、仓位相同的拿出来，然后取均值，先把空的扔了，然后获取中位数。这个就是先验性的均值。再把值拿出来，赋予到这个缺失值中。

5、如果有俩个是没有渠道的信息的话，就可以补成no,所以虽然是四列，但是本质上是三列。补的方法就是看渠道那个渠道是最多的。就把缺失值补上去。

6 对数据进行离散化。离散化什么意思呢：就是把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。
进行离散化的原因：
6.1、易于快速迭代模型；
6.2、稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
6.3、异常数据在离散化后的特征后有很强的鲁棒性：比如一个美女特征是体重>50kg是1，否则0。如果特征没有离散化，一个异常数据“体重是100kg” 就困给模型带来困扰。
6.4、是广