xgboost+python参数介绍的简单使用

本文介绍了xgboost的参数控制过拟合、模型复杂度、处理不平衡数据等,包括max_depth、min_child_weight、gamma等重要参数。同时,讲解了eta、num_round、scale_pos_weight等对模型性能的影响。还提供了xgboost的基本使用方法,并给出了Kaggle竞赛中的Python代码示例。
摘要由CSDN通过智能技术生成

官网参数介绍(英文版)

http://xgboost.readthedocs.io/en/latest/how_to/param_tuning.html
http://xgboost.readthedocs.io/en/latest/parameter.html

中文部分翻译版

http://blog.csdn.net/zc02051126/article/details/46711047

1. xgboost的参数介绍

  1. 控制过拟合
    • 直接控制模型的复杂度
      • max_depth, min_child_weight, gamma
    • 增大产生树的随机性
      • subsample, colsample_bytree
      • eta, num_round
  2. 处理不平衡的数据集
    • 预测的排序(AUC)
      • scale_pos_weight
    • 预测可靠性
      • max_delta_step
  3. 参数分别介绍
    • booster: [default=gbtree],可选gbtree和gblinear,gbtree使用基于树的模型进行提升计算,gblinear使用线性模型进行提升计算
    • silent: [default=0], 是否打印运行时信息,0为打印
    • nthread: [默认为支持的最大线程数], 运行时的线程数
    • num_pbuffer: [自动生成,不需要用户自己设置], 预测数量,一般是输入样本数
    • num_feature: [自动生成,不需要用户自己设置], 特征维数
    • eta: [default=0.3],取值范围[0,1],学习率,迭代的步长比例
    • gamma: [default=0],取值范围[0,$\infty$],损失阈值
    • max_depth: [default=6], 取值范围[0,$\infty$],树的最大深度
    • min_child_weight: [default=1], 取值范围[0,$\infty$],拆分节点权重和阈值,如果节点的样本权重和小于该阈值,就不再进行拆分
    • max_delta_step: [default=0],取值范围[0,$\infty$],每棵树的最大权重估计,0为没有限制
    • subsample: [default=1],取值范围(0,1],随机选取一定比例的样本来训练树
    • colsample_bytree: [default=1],取值范围(0,1],选取构造树的特征比例
    • colsample_bylevel: [default=1],取值范围(0,1],每个层分裂的节点数
    • lambda: [default=0],L2 正则的惩罚系数
    • alpha: [default=0],L1 正
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值