二分类比赛流程

最新推荐文章于 2021-07-07 00:28:58 发布

一颗西蓝花

最新推荐文章于 2021-07-07 00:28:58 发布

阅读量606

点赞数

分类专栏：算法竞赛

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41160054/article/details/88632543

版权

算法竞赛专栏收录该内容

8 篇文章 0 订阅

订阅专栏

数据预处理

确认数据是否完整（nan，类型异常）
将string类型，换成category（使用Onehot或者LabelEncoder）
数据标准化（MirmaxScaler或者StandardScaler）
保存数据（因为部分预处理过程会比较耗时，所以需要保留中间结果）

模型选择

一般来说，越新的模型效果越好

模型 - 示例

lightgbm 随机切分验证集，构建lgb的dataset：上采样和下采样（本赛题不适合下采样，本赛题数据集本身过小）。
开始参数不要用复杂，尽可能保持default。

当我们有了分数之后，需要注意以下几个点

模型是否符合预期？
线下得分（val auc）和线上成绩（test auc）差异大吗？
需要调整特征吗？
程序存在bug吗？
如果成绩不错，注意保留程序，如果有复赛，需要复盘。
特征质量决定分数高度，调参只会让你逼近这个高度。

本文总结来自李欢的视频讲解：

https://www.eeo.cn/webcast.php?courseKey=1ccf3b7c5d56777b&lessonid=36407479
相对应的二分类比赛地址在https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3

一颗西蓝花

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
二分类比赛流程

数据预处理确认数据是否完整（nan，类型异常）将string类型，换成category（使用Onehot或者LabelEncoder）数据标准化（MirmaxScaler或者StandardScaler）保存数据（因为部分预处理过程会比较耗时，所以需要保留中间结果）模型选择一般来说，越新的模型效果越好模型 - 示例lightgbm 随机切分验证集，构建lgb的datase...
复制链接

扫一扫

专栏目录

一颗西蓝花 CSDN认证博客专家 CSDN认证企业博客

码龄6年

30: 原创

41万+: 周排名

178万+: 总排名

7万+: 访问

: 等级

1055: 积分

14: 粉丝

0: 获赞

10: 评论

106: 收藏

私信

关注

热门文章

分类专栏

最新评论

给hexo安装主题
LeBron Le: 按照您的操作一步步来的为什么hexo在命令行无效
node.js和JavaScript的关系
Ripo_za: 这篇博客使我真正明白了这两者的关系，很感谢。
node.js和JavaScript的关系
Ripo_za: 这篇博客使我真正明白了这两者的关系，很感谢。
Mac部署Hexo详细教程
m0_58272726: 不输入这两个符号就可以了
给hexo安装主题
youmou_: 你好我修改完menu之后导航栏没有增多请问一下是为什么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。