数据竞赛要点

最新推荐文章于 2020-11-29 09:48:11 发布

磕到脑

最新推荐文章于 2020-11-29 09:48:11 发布

阅读量667

点赞数

分类专栏：数据分析文章标签：数据竞赛 Kaggle 天池机器学习人工智能

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Hexo博客地址：Yanbin’s blog
视频链接：从0-1的数据竞赛经验分享

0 所需能力

0.1 工具

语言：Python
库：Pandas, Numpy, Sklearn, Scipy, Seaborn, Keras, Xgboost, Lightgbm

0.2 参考书籍

李航《统计学习方法》
周老师《机器学习》

1 建模工作框架

数据竞赛 - 建模工作框架

2 数据预处理

删除噪音，获得更加干净的数据

2.1缺失值处理

缺失严重（达到90%）：直接删除特征列
单条记录缺失严重（达到90%）：直接删除记录
缺失不严重（低于90%）：填充均值、中位数、单独生成一列0-1，或根据相关性高的特征进行还原

2.2 奇异值处理

转化为非奇异值
无法修整，直接删除
区分标签与特征的处理

2.3 特殊的预处理

流量的归一化
图像的标准化

3 特征工程

3.1 人工特征：人为构建，基于个人水平和经验

覆盖面越多越好
覆盖角度越多越好（宏观到微观）
与预测目标相关的所有信息全部加入

3.2 机器特征：模型的生成，模型的理解

PCA，FLD特征
GBDT输出的路径特征
神经网络特征（AutoEncoder等）

3.3 自动化特征轮：AutoML（流行），可根据经验自行设计

4 模型

逼近上界

4.1 最为流行的模型

4.1.1 单模型

结构化数据类：XGBoost，LightGBM等
推荐类：FFM等
图像+文本类：各种神经网络

4.1.2 模型融合

均值集成，加权集成，Rank集成
Stacking：简单的5折Stacking，StackNet等

4.2 如何让模型更好的消化数据？

目前80%~90%的比赛冠军方案都是基于LGB，XGB，RF，GBDT模型

模型的反作用

4.2.1 反作用数据预处理

数据过少不具有代表性的：删除
方差较小不具有代表性的：删除

4.2.2 反作用特征工程

一阶、二阶、三阶+固定属性特征
不同的比赛略有不同

5 数据分析

一般质的飞跃都在这个阶段

数据标签分析：好的label构建，成功了一半
数据特征分析：

a) 设计更好的特征
b) 设计强特
结果分析

a) 根据预测结果设计Tricks
b) 李勇预测结果设计更为高级的算法，例如：基于RF概率的KNN修正

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛要点

视频链接：从0-1的数据竞赛经验分享1 所需能力1.1 工具语言：Python库：Pandas, Numpy, Sklearn, sci
复制链接

扫一扫

专栏目录

磕到脑 CSDN认证博客专家 CSDN认证企业博客

码龄7年

4: 原创

40万+: 周排名

163万+: 总排名

1万+: 访问

: 等级

244: 积分

16: 粉丝

11: 获赞

6: 评论

83: 收藏

私信

关注

分类专栏

最新评论

pandapower最优潮流计算tutorial
liudinglldd: 看到负荷只有有功，请问博主怎么添加无功啊？
pandapower最优潮流计算tutorial
zbx200057: 大佬pandapower里可以计算功率传输转移分布因子吗？
pandapower最优潮流计算tutorial
STM32开发者: 收获满满,码字不易,欢迎回访我的博客
pandapower最优潮流计算tutorial
冲动的企鹅: 大佬，哪里可以找到更多的pandapower教程示例呢，手册里好像没有找到
pandapower最优潮流计算tutorial
Vurgit 回复 qq_38902715: 有一些第三方开发的package，但是总体来说还是比matlab相关的工具包差几个数量级

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。