数据竞赛详细流程

数据EDA

数据分析
缺失值分析
特征分析
是否有单调特征列
特征nunique分布
统计特征值出现的频次大于100的特征
label分布
不同的特征值的样本的label的分布

数据清洗

缺失值分析及处理
缺失值出现的原因分析
采取合适的方式对缺失值进行填充
异常值分析及处理
根据测试集数据的分布处理训练集的数据分布
使用合适的方法找出异常值
对异常值进行处理

深度清洗

  • 分析每一个communityname、city、region、plate的数据分布并对其进行数据清洗
    主要思路分析

  • 1.缺失值处理
    缺失值的处理手段大体可以分为:删除、填充、映射到高维。

  • 2.转换object类型数据
    这里直接采用labelencode的方式编码。

  • 3.时间字段的处理

  • 4.删除无关字段
    id是唯一码,建模无用,所以直接删除;
    city只有一个SH值,也直接删除;
    tradetime已经分割成月和日,删除原来字段

  • 5.异常值处理
    主要针对area和trademoney两个维度处理
    针对trademoney,这里采用的是isolationforest模型自动处理
    针对areahetotalfloor是主观+数据可视化的方式得到的结果

特征工程

计算均值、计算中位数、计算方差、计算最大值、计算最小值、计算出现次数
特征拆分、特征合并、交叉生成特征、聚类特征、特征编码、过大量级取log平滑

模型选择

  • 标签的种类,标签会定义你要解决何种问题,有不同的问题类型。例如:

单列,二进制值(分类问题,一个样本仅属于一个类,并且只有两个类)
单列,实数值(回归问题,只预测一个值)
多列,二进制值(分类问题,一个样本属于一个类,但有两个以上的类)
多列,实数值(回归问题,多个值的预测)
多个标签(分类问题,一个样本可以属于几个类)
在这里插入图片描述

模型融合

将特征放进模型中预测,并将预测结果作为新的特征加入原有的特征中再经过模型预测结果
像是一种优化手段/策略,它通常是结合多个简单的弱机器学习算法,去做更可靠的决策。拿分类问题举个例,直观的理解,就是单个分类器的分类是可能出错,不可靠的,但是如果多个分类器投票,那可靠度就会高很多。常用的模型融合增强方法包括:

Random Forest
Boosting
Bootstrapped Aggregation (Bagging)
AdaBoost
Stacked Generalization (blending)
Gradient Boosting Machines (GBM)
Gradient Boosted Regression Trees (GBRT)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值