机器学习-特征选择

1.特征筛选

1)计算变量的相关性,对线性模型一般有效,非线性效果不明显。

2) 给予模型的特征选择,如lr选择正则化或随机森林输出特征的总要度。

3)RFE逐步特征选择。

sklearn在工业界通常不考虑效率,真正工业界用xgboost和lightgbm多。

2.模型评估和参数调优

1)数据切分、可能切偏,真正使用数据乱序加上交叉验证。

2)k折交叉验证(分层抽样通常,保证比例),交叉验证得分。

3)网格搜索,找最优的超参数,向量化运算比for循环高效永远。准备好参数字典、sklearn是并行的找超参数。候选参数通常是等差或等比的取,并没有实际的标准,通常是经验确定。

4)工业界用SVM分类的比较少,一般用gdbt和随机森林做分类多一些。

5)sklearn中有构建流水线的函数pipeline([ ])在参数调优时间需要注明那个环节_参数名称:[参数列表];网格搜索是一套机制,不是pipe里面的一个环节。make_pipeline( , , ,)可以不给流程的名字,pipline.steps输出流程,取中间结果pipe.named_steps(步骤名称).components_;grid.best_estimator_ ; components_;grid.best_estimator_.named_steps["步骤名称'],只要可以fit的环节都是可以放在pipeline里面的

6)中小型数据使用sklearn但是数据两比较大时间还是使用lightgbm和xgboost(如实现GDBT),工业界很喜欢树型模型,有点:第一 可解释性好 第二 不需要幅度缩放


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值