参数
boostting_type:训练方式,gbdt
objective:目标函数,可以是binary,regression
metric:评估指标,可以选择auc mse binary_logloss multi_loss
learning_rate:学习率
max_depth : 树的最大深度,当模型过拟合时,可以降低max_depth
min_data_in_leaf:叶子节点最小记录数,默认20
Bagging参数:bagging_faction+bagging_freq(需要同时设置)
bagging_faction:每次迭代时用的数据比例,用于加快训练速度和减小过拟合
bagging_freq: bagging的次数。默认为0,表示禁止用bagging,非零值表示执行k次bagging,一般设置3-3
feature_faction : 设置在每次迭代中使用特征的比例,例如为0.8时,意味着在每次迭代中随机选择80%的参数来建建树
early_stopping_round:如果一次验证数据的一个度量在最近的round中没有提高,模型将停止训练
lambda: 正则化,范围0~1
min_gain_to_split:描述分裂的最小gain,控制数的有用的分裂
max_cat_group:在group边界上找到分割点,当类别数量多时,找到分割点很容易过拟合
num_boost_round迭代次数,通常100+
num_leaves:默认31
device:指定cou或者gpu
max_bin:表示feature将存入bin的最大数量
categorical_feature:如果categorical_feature=0,1,2,则列0,1,2是categorical变量
ignore_column:与categorical_feature类似,只不过,不是特定的列视为categorical,而是完全忽略