数据预处理
- 确认数据是否完整(nan,类型异常)
- 将string类型,换成category(使用Onehot或者LabelEncoder)
- 数据标准化(MirmaxScaler或者StandardScaler)
- 保存数据(因为部分预处理过程会比较耗时,所以需要保留中间结果)
模型选择
- 一般来说,越新的模型效果越好
模型 - 示例
- lightgbm 随机切分验证集,构建lgb的dataset:上采样和下采样(本赛题不适合下采样,本赛题数据集本身过小)。
- 开始参数不要用复杂,尽可能保持default。
当我们有了分数之后,需要注意以下几个点
- 模型是否符合预期?
- 线下得分(val auc)和线上成绩(test auc)差异大吗?
- 需要调整特征吗?
- 程序存在bug吗?
- 如果成绩不错,注意保留程序,如果有复赛,需要复盘。
- 特征质量决定分数高度,调参只会让你逼近这个高度。
本文总结来自李欢的视频讲解:
- https://www.eeo.cn/webcast.php?courseKey=1ccf3b7c5d56777b&lessonid=36407479
- 相对应的二分类比赛地址在https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3