数据竞赛要点

Hexo博客地址:Yanbin’s blog
视频链接:从0-1的数据竞赛经验分享

0 所需能力

0.1 工具

  • 语言:Python
  • 库:Pandas, Numpy, Sklearn, Scipy, Seaborn, Keras, Xgboost, Lightgbm

0.2 参考书籍

  • 李航《统计学习方法》
  • 周老师《机器学习》

1 建模工作框架

数据竞赛 - 建模工作框架

2 数据预处理

删除噪音,获得更加干净的数据

2.1缺失值处理

  1. 缺失严重(达到90%):直接删除特征列
  2. 单条记录缺失严重(达到90%):直接删除记录
  3. 缺失不严重(低于90%):填充均值、中位数、单独生成一列0-1,或根据相关性高的特征进行还原

2.2 奇异值处理

  1. 转化为非奇异值
  2. 无法修整,直接删除
  3. 区分标签与特征的处理

2.3 特殊的预处理

  1. 流量的归一化
  2. 图像的标准化

3 特征工程

3.1 人工特征:人为构建,基于个人水平和经验

  1. 覆盖面越多越好
  2. 覆盖角度越多越好(宏观到微观)
  3. 与预测目标相关的所有信息全部加入

3.2 机器特征:模型的生成,模型的理解

  1. PCA,FLD特征
  2. GBDT输出的路径特征
  3. 神经网络特征(AutoEncoder等)

3.3 自动化特征轮:AutoML(流行),可根据经验自行设计

4 模型

逼近上界

4.1 最为流行的模型

4.1.1 单模型

  1. 结构化数据类:XGBoost,LightGBM等
  2. 推荐类:FFM等
  3. 图像+文本类:各种神经网络

4.1.2 模型融合

  1. 均值集成,加权集成,Rank集成
  2. Stacking:简单的5折Stacking,StackNet等

4.2 如何让模型更好的消化数据?

目前80%~90%的比赛冠军方案都是基于LGB,XGB,RF,GBDT模型

模型的反作用

4.2.1 反作用数据预处理

  1. 数据过少不具有代表性的:删除
  2. 方差较小不具有代表性的:删除

4.2.2 反作用特征工程

  1. 一阶、二阶、三阶+固定属性特征
  2. 不同的比赛略有不同

5 数据分析

一般质的飞跃都在这个阶段

  1. 数据标签分析:好的label构建,成功了一半
  2. 数据特征分析:

    a) 设计更好的特征
    b) 设计强特

  3. 结果分析

    a) 根据预测结果设计Tricks
    b) 李勇预测结果设计更为高级的算法,例如:基于RF概率的KNN修正

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值