① 网格搜索交叉验证:通常是在全量数据上做的,会自动切分成几折(有时候会注意做分层抽样去保证数据分布)。
参考的kaggle kernel代码:https://www.kaggle.com/cesartrevisan/scikit-learn-and-gridsearchcv
② early stopping:这个通常需要切分训练集和验证集,我们会根据验证集去确定最佳的轮次,但是除掉迭代轮次以外其他的参数需要通过经验或者GridSearch敲定。
参考的kaggle kernel代码:https://www.kaggle.com/cast42/xgboost-with-early-stopping
③ 贝叶斯优化
参考的kaggle kernel代码:https://www.kaggle.com/sz8416/simple-bayesian-optimization-for-lightgbm
待理解更深入之后 再补充