xgboost参数_sklearn之XGBoost(模型保存、样本不均衡、参数)

最新推荐文章于 2024-06-26 11:02:48 发布

weixin_39702480

最新推荐文章于 2024-06-26 11:02:48 发布

阅读量1.1k

点赞数 3

文章标签： xgboost参数

我是谁？雪拉比

模型保存

（1）Pickle保存

pickle.dump()保存模型，训练完的模型就可以进行保存。内部参数需要用到open函数

模型保存在当前目录下

导入模型pickle.load，还是需要参数open

模型预测结果与存储前模型预测结果将是一致的

（2）Joblib保存

Joblib是SciPy生态系统中的一部分，为Python提供保存和调用管道和对象的功能，处理NumPy结构的数据尤其高效，对于很大的数据集和巨大的模型非常有用。

保存和读取依然是dump和load，但参数不需要用open函数了

结果与用pickle保存后读取的模型结果一模一样

保存sklearnAPI的xgb，结果稍差一些

XGB中样本不均衡问题

在用xgb进行分类任务时，若是样本不均衡，可以用参数scale_pos_weight调节，一般输入的是负样本量与正样本量之比。

构建一个不平衡的数据

在不调节控制不均衡数据的参数时，召回率比较低

调节控制不均衡的参数后，准确率和召回率升高，AUC略降低

搜索参数后，发现30是最好的，虽然数据比例是10:1，但从结果上来看，参数调整成30结果最佳。

用xgb控制不平衡数据

xgb预测分类的结果是以概率值进行输出的

人为划分，按0.5

搜索不同scale_pos_weight下结果如何

可以发现，如果只看AUC指标的话，默认1的scale_pos_weight最好，如果需要考虑召回率和准确率则需要采用10。

同时考虑scale_pos_weight和之前划分的阈值

除了参数scale_pos_weight外，还有max_delta_step可以处理不均衡数据的问题，如果十分在意得到正确的预测概率，可以设置max_delta_step参数为一个有限的数（比如1）来帮助收敛。max_delta_step参数通常不进行使用，二分类下的样本不均衡问题是这个参数唯一的用途。

XGBoost类中的其他参数和功能

n_jobs：输入整数表示使用的线程，输入-1表示使用计算机全部的计算资源。如果数据量很大，则需要这个参数来调用更多线程。

base_score：全局偏差，在分类问题中，有点像是先验概率。比如有1000个样本，300个正样本，700个负样本，则base_score就是0.3；回归中默认是0.5，其实比较合适的应该是标签的均值，通常不太适用，数据不平衡时考虑使用。

random_state：生成树的随机模式

missing：自动处理缺失值，默认会把所有缺失值当作稀疏矩阵中的0来进行处理，如果能手动填补自然最好。

weixin_39702480

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
xgboost参数_sklearn之XGBoost(模型保存、样本不均衡、参数)

我是谁？雪拉比模型保存（1）Pickle保存pickle.dump()保存模型，训练完的模型就可以进行保存。内部参数需要用到open函数模型保存在当前目录下导入模型pickle.load，还是需要参数open模型预测结果与存储前模型预测结果将是一致的（2）Joblib保存Joblib是SciPy生态系统中的一部分，为Python提供保存和调用管道和对象的功能，处理NumPy结构的数据尤其高效，对于...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。