模型训练与验证

数据集划分通常分为训练集、线下验证集、线下测试集和线上测试集。对于无时序的数据集:简单划分、交叉验证划分等。对于有时序的数据集:需考虑时序,nested交叉验证划分等。

模型选择方面我们一句在验证集熵的效果选择,除了关注效果的均值,还要关注稳健性。对于线上效果可以将线上效果视为一折数据。参数调优方面不建议将精力放在参数调优上;容易过拟合大体的设置参数即可,例如,Xgboost,learning_rate=0.1,nround=200,max_depth=6,应将精力重点放在特征工程;其次是模型融合。

  1. 掌握常用的回归模型,熟悉模型融合方法
    • 常用回归模型

     线性回归 
    
             可采用最小二乘或梯度下降等方法估计 
    
             当变量较多时,建议考虑添加LASSO等惩罚项
    
    
    
     决策树 
    
             变量选择条件1:为每个变量选择切分点,从而将变量作为节点分裂 
    
             变量选择条件2:在分裂后,依据相应分支内所有样本的因变量均值 作为估计,并评
    
             估拟合误差 
    
             贪心策略:综合评价每个变量对上述两个条件的满足程度 
    
             CART回归树
    
             使用sklearn调用决策树回归
    
    
    
     随机森林 
    
             集成学习之Bagging:随机选取样本、特征 
    
             常采用决策树作为基模型 
    
             并行集成策略 
    
             取所有树的输出均值
    
             使用sklearn调用随机森林回归
    
     梯度提升树
    
             集成学习之Boosting:依据估计误差调整样本权重 
    
             常采用决策树作为基模型 
    
             串行集成策略 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值