官网参数介绍(英文版)
http://xgboost.readthedocs.io/en/latest/how_to/param_tuning.html
http://xgboost.readthedocs.io/en/latest/parameter.html中文部分翻译版
1. xgboost的参数介绍
- 控制过拟合
- 直接控制模型的复杂度
- max_depth, min_child_weight, gamma
- 增大产生树的随机性
- subsample, colsample_bytree
- eta, num_round
- 直接控制模型的复杂度
- 处理不平衡的数据集
- 预测的排序(AUC)
- scale_pos_weight
- 预测可靠性
- max_delta_step
- 预测的排序(AUC)
- 参数分别介绍
- booster: [default=gbtree],可选gbtree和gblinear,gbtree使用基于树的模型进行提升计算,gblinear使用线性模型进行提升计算
- silent: [default=0], 是否打印运行时信息,0为打印
- nthread: [默认为支持的最大线程数], 运行时的线程数
- num_pbuffer: [自动生成,不需要用户自己设置], 预测数量,一般是输入样本数
- num_feature: [自动生成,不需要用户自己设置], 特征维数
- eta: [default=0.3],取值范围[0,1],学习率,迭代的步长比例
- gamma: [default=0],取值范围[0,
$\infty$
],损失阈值 - max_depth: [default=6], 取值范围[0,
$\infty$
],树的最大深度 - min_child_weight: [default=1], 取值范围[0,
$\infty$
],拆分节点权重和阈值,如果节点的样本权重和小于该阈值,就不再进行拆分 - max_delta_step: [default=0],取值范围[0,
$\infty$
],每棵树的最大权重估计,0为没有限制 - subsample: [default=1],取值范围(0,1],随机选取一定比例的样本来训练树
- colsample_bytree: [default=1],取值范围(0,1],选取构造树的特征比例
- colsample_bylevel: [default=1],取值范围(0,1],每个层分裂的节点数
- lambda: [default=0],L2 正则的惩罚系数
- alpha: [default=0],L1 正