数据集划分通常分为训练集、线下验证集、线下测试集和线上测试集。对于无时序的数据集:简单划分、交叉验证划分等。对于有时序的数据集:需考虑时序,nested交叉验证划分等。
模型选择方面我们一句在验证集熵的效果选择,除了关注效果的均值,还要关注稳健性。对于线上效果可以将线上效果视为一折数据。参数调优方面不建议将精力放在参数调优上;容易过拟合大体的设置参数即可,例如,Xgboost,learning_rate=0.1,nround=200,max_depth=6,应将精力重点放在特征工程;其次是模型融合。
-
掌握常用的回归模型,熟悉模型融合方法
• 常用回归模型线性回归 可采用最小二乘或梯度下降等方法估计 当变量较多时,建议考虑添加LASSO等惩罚项 决策树 变量选择条件1:为每个变量选择切分点,从而将变量作为节点分裂 变量选择条件2:在分裂后,依据相应分支内所有样本的因变量均值 作为估计,并评 估拟合误差 贪心策略:综合评价每个变量对上述两个条件的满足程度 CART回归树 使用sklearn调用决策树回归 随机森林 集成学习之Bagging:随机选取样本、特征 常采用决策树作为基模型 并行集成策略 取所有树的输出均值 使用sklearn调用随机森林回归 梯度提升树 集成学习之Boosting:依据估计误差调整样本权重 常采用决策树作为基模型 串行集成策略