二分类比赛流程

数据预处理

  1. 确认数据是否完整(nan,类型异常)
  2. 将string类型,换成category(使用Onehot或者LabelEncoder)
  3. 数据标准化(MirmaxScaler或者StandardScaler)
  4. 保存数据(因为部分预处理过程会比较耗时,所以需要保留中间结果)

模型选择

  1. 一般来说,越新的模型效果越好

模型 - 示例

  1. lightgbm 随机切分验证集,构建lgb的dataset:上采样和下采样(本赛题不适合下采样,本赛题数据集本身过小)。
  2. 开始参数不要用复杂,尽可能保持default。

当我们有了分数之后,需要注意以下几个点

  1. 模型是否符合预期?
  2. 线下得分(val auc)和线上成绩(test auc)差异大吗?
  3. 需要调整特征吗?
  4. 程序存在bug吗?
  5. 如果成绩不错,注意保留程序,如果有复赛,需要复盘。
  6. 特征质量决定分数高度,调参只会让你逼近这个高度。

本文总结来自李欢的视频讲解:

  1. https://www.eeo.cn/webcast.php?courseKey=1ccf3b7c5d56777b&lessonid=36407479
  2. 相对应的二分类比赛地址在https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值