数据竞赛详细流程

最新推荐文章于 2020-11-29 09:48:11 发布

Guoliang Li

最新推荐文章于 2020-11-29 09:48:11 发布

阅读量616

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35740095/article/details/104057375

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

数据竞赛整理

数据EDA
数据清洗
- 深度清洗
特征工程
模型选择
模型融合

数据EDA

数据分析
缺失值分析
特征分析
是否有单调特征列
特征nunique分布
统计特征值出现的频次大于100的特征
label分布
不同的特征值的样本的label的分布

数据清洗

缺失值分析及处理
缺失值出现的原因分析
采取合适的方式对缺失值进行填充
异常值分析及处理
根据测试集数据的分布处理训练集的数据分布
使用合适的方法找出异常值
对异常值进行处理

深度清洗

分析每一个communityname、city、region、plate的数据分布并对其进行数据清洗
主要思路分析
1.缺失值处理
缺失值的处理手段大体可以分为：删除、填充、映射到高维。
2.转换object类型数据
这里直接采用labelencode的方式编码。
3.时间字段的处理
4.删除无关字段
id是唯一码，建模无用，所以直接删除;
city只有一个SH值，也直接删除;
tradetime已经分割成月和日，删除原来字段
5.异常值处理
主要针对area和trademoney两个维度处理
针对trademoney，这里采用的是isolationforest模型自动处理
针对areahetotalfloor是主观+数据可视化的方式得到的结果

特征工程

计算均值、计算中位数、计算方差、计算最大值、计算最小值、计算出现次数
特征拆分、特征合并、交叉生成特征、聚类特征、特征编码、过大量级取log平滑

模型选择

标签的种类，标签会定义你要解决何种问题，有不同的问题类型。例如：

单列，二进制值（分类问题，一个样本仅属于一个类，并且只有两个类）
单列，实数值（回归问题，只预测一个值）
多列，二进制值（分类问题，一个样本属于一个类，但有两个以上的类）
多列，实数值（回归问题，多个值的预测）
多个标签（分类问题，一个样本可以属于几个类）

模型融合

将特征放进模型中预测，并将预测结果作为新的特征加入原有的特征中再经过模型预测结果
像是一种优化手段/策略，它通常是结合多个简单的弱机器学习算法，去做更可靠的决策。拿分类问题举个例，直观的理解，就是单个分类器的分类是可能出错，不可靠的，但是如果多个分类器投票，那可靠度就会高很多。常用的模型融合增强方法包括：

Random Forest
Boosting
Bootstrapped Aggregation (Bagging)
AdaBoost
Stacked Generalization (blending)
Gradient Boosting Machines (GBM)
Gradient Boosted Regression Trees (GBRT)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛详细流程

数据竞赛整理数据EDA数据清洗深度清洗特征工程模型选择模型融合数据EDA数据分析缺失值分析特征分析是否有单调特征列特征nunique分布统计特征值出现的频次大于100的特征label分布不同的特征值的样本的label的分布数据清洗缺失值分析及处理缺失值出现的原因分析采取合适的方式对缺失值进行填充异常值分析及处理根据测试集数据的分布处理训练集的数据分布使用合适的方法找...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。