xgboost+python参数介绍的简单使用

最新推荐文章于 2024-05-11 13:36:10 发布

Asun0204

最新推荐文章于 2024-05-11 13:36:10 发布

阅读量1.5k

点赞数

分类专栏：机器学习 python 文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Asun0204/article/details/75307327

版权

本文介绍了xgboost的参数控制过拟合、模型复杂度、处理不平衡数据等，包括max_depth、min_child_weight、gamma等重要参数。同时，讲解了eta、num_round、scale_pos_weight等对模型性能的影响。还提供了xgboost的基本使用方法，并给出了Kaggle竞赛中的Python代码示例。

摘要由CSDN通过智能技术生成

官网参数介绍（英文版）

http://xgboost.readthedocs.io/en/latest/how_to/param_tuning.html
http://xgboost.readthedocs.io/en/latest/parameter.html

中文部分翻译版

http://blog.csdn.net/zc02051126/article/details/46711047

1. xgboost的参数介绍

控制过拟合
- 直接控制模型的复杂度
  - max_depth, min_child_weight, gamma
- 增大产生树的随机性
  - subsample, colsample_bytree
  - eta, num_round
处理不平衡的数据集
- 预测的排序（AUC）
  - scale_pos_weight
- 预测可靠性
  - max_delta_step
参数分别介绍
- booster: [default=gbtree]，可选gbtree和gblinear，gbtree使用基于树的模型进行提升计算，gblinear使用线性模型进行提升计算
- silent: [default=0], 是否打印运行时信息，0为打印
- nthread: [默认为支持的最大线程数], 运行时的线程数
- num_pbuffer: [自动生成，不需要用户自己设置], 预测数量，一般是输入样本数
- num_feature: [自动生成，不需要用户自己设置], 特征维数
- eta: [default=0.3]，取值范围[0,1]，学习率，迭代的步长比例
- gamma: [default=0]，取值范围[0, $\infty$ ]，损失阈值
- max_depth: [default=6], 取值范围[0, $\infty$ ]，树的最大深度
- min_child_weight: [default=1], 取值范围[0, $\infty$ ]，拆分节点权重和阈值，如果节点的样本权重和小于该阈值，就不再进行拆分
- max_delta_step: [default=0]，取值范围[0, $\infty$ ]，每棵树的最大权重估计，0为没有限制
- subsample: [default=1]，取值范围(0,1]，随机选取一定比例的样本来训练树
- colsample_bytree: [default=1]，取值范围(0,1]，选取构造树的特征比例
- colsample_bylevel: [default=1]，取值范围(0,1]，每个层分裂的节点数
- lambda: [default=0]，L2 正则的惩罚系数
- alpha: [default=0]，L1 正

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。