文章目录
数据准备
1.1数据导入
1.1.1 注意事项
1、数据孤岛
A表在某个平台,B表在另外的平台,通过主键将A表和B表进行匹配,此时需要判断能匹配上的量级。
● 量级过小(对于评分卡要求正负样本的数量不少于1500个,对于神经网络等多参数模型,通常要求样本量在50万以上)
○ 首先看看匹配的逻辑是否正确
○ 查看未匹配上的原因是什么
○ 最后根据原因寻找数据补充方案
● 样本量充足,通常要求样本的观察期于实际应用时间节点越接近越好,如银行等客群稳定的场景,观察期可达一年以上,然而很多平台,很难保证样本都处于稳定的较近期的时间点上:
○ 此时可以通过迁移学习等方法对样本进行挑选或对变量进行映射,使得早期样本与近期样本有相似的数据分布。
1.2 数据清洗
1.2.1 缺失值
1.2.1.1 处理思路
● step1:
首先要了解缺失产生的原因,因数据获取导致的缺失建议用填充的方式(缺失率比较低的情况下)
● step2:
评判缺失的特征的重要程度,有两种评价重要性的方法,一是根据根据业务场景评判模型重要度,二是若为分类问题,可先用xgboost/lightgbm这类可以自动处理缺失值的模型,输出各特征的重要度,如果缺失的特征重要度较低,可以直接删除该特征
● step3:
若该特征比较重要,以下为建议处理方法
缺失占比 处理方式
50%以上 建议不用
20%-50% 建议把缺失的特征当作一个类别,1为缺失,0为未缺失
20%以下 用中位数/众数填充
1.2.1.2 注意事项
不是说缺失率太高的特征如缺失率为90%,一定做删除处理,在具体业务场景中需要case by case分析,可能这个特征的缺失与否对目标人群的分离程度很高
1.2.2 重复值
1.2.2.1 处理思路
去重是重复值处理的主要方法,主要目的是保留能显示特征的唯一数据记录
1.2.2.2 注意事项
1.2.3 异常值
1.2.3.1 处理思路
● step1:
检查是不是数据错误导致的,如果是数据错误的异常删除即可
● step2:
如果不是数据错误,对于连续型变量,可以进行离散化。如果异常值数量较多如超过20%,建议将异常值归为一类,数量较少删除亦可。
1.2.3.2 注意事项
如果从业务角度来说,该异常值逻辑合理,那这部分用户是我们需要重点关注,如在用户分析中,某些用户的ARPU可能是平均水平的几千倍,这些用户需要我们重点关注。
1.3 口径定义注意事项
1.3.1 口径定义遗漏场景
在定于口径时需要做到场景罗列完全并且场景互斥,符合MECE原则,如用近6个月未活跃的用户定义为流失用户,那需考虑以下场景:
1、前6个月未活跃,第7个月活跃的用户
2、6个月中5月未活跃,只有一个月活跃的用户
3、6个月中前5个月未活跃,最后一个月活跃的用户
1.3.2 数据口径频繁变化导致统计数据不准
如因为老是之前的数据被串改。导致每次统计当月的结果都会变化。可改成这个月的量等于总量减去上个月总量。