02标准建模流程:数据准备

数据准备

1.1数据导入

1.1.1 注意事项

1、数据孤岛
A表在某个平台,B表在另外的平台,通过主键将A表和B表进行匹配,此时需要判断能匹配上的量级。
● 量级过小(对于评分卡要求正负样本的数量不少于1500个,对于神经网络等多参数模型,通常要求样本量在50万以上)
○ 首先看看匹配的逻辑是否正确
○ 查看未匹配上的原因是什么
○ 最后根据原因寻找数据补充方案
● 样本量充足,通常要求样本的观察期于实际应用时间节点越接近越好,如银行等客群稳定的场景,观察期可达一年以上,然而很多平台,很难保证样本都处于稳定的较近期的时间点上:
○ 此时可以通过迁移学习等方法对样本进行挑选或对变量进行映射,使得早期样本与近期样本有相似的数据分布。

1.2 数据清洗

1.2.1 缺失值

1.2.1.1 处理思路

● step1:
首先要了解缺失产生的原因,因数据获取导致的缺失建议用填充的方式(缺失率比较低的情况下)
● step2:
评判缺失的特征的重要程度,有两种评价重要性的方法,一是根据根据业务场景评判模型重要度,二是若为分类问题,可先用xgboost/lightgbm这类可以自动处理缺失值的模型,输出各特征的重要度,如果缺失的特征重要度较低,可以直接删除该特征
● step3:
若该特征比较重要,以下为建议处理方法
缺失占比 处理方式
50%以上 建议不用
20%-50% 建议把缺失的特征当作一个类别,1为缺失,0为未缺失
20%以下 用中位数/众数填充

1.2.1.2 注意事项

不是说缺失率太高的特征如缺失率为90%,一定做删除处理,在具体业务场景中需要case by case分析,可能这个特征的缺失与否对目标人群的分离程度很高

1.2.2 重复值

1.2.2.1 处理思路

去重是重复值处理的主要方法,主要目的是保留能显示特征的唯一数据记录

1.2.2.2 注意事项

1.2.3 异常值

1.2.3.1 处理思路

● step1:
检查是不是数据错误导致的,如果是数据错误的异常删除即可
● step2:
如果不是数据错误,对于连续型变量,可以进行离散化。如果异常值数量较多如超过20%,建议将异常值归为一类,数量较少删除亦可。

1.2.3.2 注意事项

如果从业务角度来说,该异常值逻辑合理,那这部分用户是我们需要重点关注,如在用户分析中,某些用户的ARPU可能是平均水平的几千倍,这些用户需要我们重点关注。

1.3 口径定义注意事项

1.3.1 口径定义遗漏场景

在定于口径时需要做到场景罗列完全并且场景互斥,符合MECE原则,如用近6个月未活跃的用户定义为流失用户,那需考虑以下场景:
1、前6个月未活跃,第7个月活跃的用户
2、6个月中5月未活跃,只有一个月活跃的用户
3、6个月中前5个月未活跃,最后一个月活跃的用户

1.3.2 数据口径频繁变化导致统计数据不准

如因为老是之前的数据被串改。导致每次统计当月的结果都会变化。可改成这个月的量等于总量减去上个月总量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值