02标准建模流程:数据准备

不会产品的码农不是好的运营

已于 2022-05-04 13:37:56 修改

阅读量2.6k

点赞数

文章标签：数据挖掘数据分析机器学习

于 2022-05-04 11:53:48 首次发布

本文链接：https://blog.csdn.net/weixin_40313252/article/details/124568494

版权

本文详细介绍了数据准备过程中的重要环节，包括数据导入、数据清洗和口径定义。在数据导入时，强调了匹配逻辑的正确性及处理数据孤岛问题。数据清洗部分，讨论了缺失值、重复值和异常值的处理策略，如使用中位数填充、将缺失值视为新类别等。同时，指出在处理异常值时，需结合业务场景判断其重要性。在口径定义时，提醒注意场景罗列的完整性和数据口径的稳定性，以避免统计数据不准确。

摘要由CSDN通过智能技术生成

文章目录

数据准备

数据准备

1.1数据导入

1.1.1 注意事项

1、数据孤岛
A表在某个平台，B表在另外的平台，通过主键将A表和B表进行匹配，此时需要判断能匹配上的量级。
● 量级过小（对于评分卡要求正负样本的数量不少于1500个，对于神经网络等多参数模型，通常要求样本量在50万以上）
○ 首先看看匹配的逻辑是否正确
○ 查看未匹配上的原因是什么
○ 最后根据原因寻找数据补充方案
● 样本量充足，通常要求样本的观察期于实际应用时间节点越接近越好，如银行等客群稳定的场景，观察期可达一年以上，然而很多平台，很难保证样本都处于稳定的较近期的时间点上：
○ 此时可以通过迁移学习等方法对样本进行挑选或对变量进行映射，使得早期样本与近期样本有相似的数据分布。

1.2 数据清洗

1.2.1 缺失值

1.2.1.1 处理思路

● step1:
首先要了解缺失产生的原因，因数据获取导致的缺失建议用填充的方式(缺失率比较低的情况下）
● step2:
评判缺失的特征的重要程度，有两种评价重要性的方法，一是根据根据业务场景评判模型重要度，二是若为分类问题，可先用xgboost/lightgbm这类可以自动处理缺失值的模型，输出各特征的重要度，如果缺失的特征重要度较低，可以直接删除该特征
● step3:
若该特征比较重要，以下为建议处理方法
缺失占比处理方式
50%以上建议不用
20%-50% 建议把缺失的特征当作一个类别，1为缺失，0为未缺失
20%以下用中位数/众数填充

1.2.1.2 注意事项

不是说缺失率太高的特征如缺失率为90%，一定做删除处理，在具体业务场景中需要case by case分析，可能这个特征的缺失与否对目标人群的分离程度很高

1.2.2 重复值

1.2.2.1 处理思路

去重是重复值处理的主要方法，主要目的是保留能显示特征的唯一数据记录

1.2.2.2 注意事项

1.2.3 异常值

1.2.3.1 处理思路

● step1：
检查是不是数据错误导致的，如果是数据错误的异常删除即可
● step2：
如果不是数据错误，对于连续型变量，可以进行离散化。如果异常值数量较多如超过20%，建议将异常值归为一类，数量较少删除亦可。

1.2.3.2 注意事项

如果从业务角度来说，该异常值逻辑合理，那这部分用户是我们需要重点关注，如在用户分析中，某些用户的ARPU可能是平均水平的几千倍，这些用户需要我们重点关注。

1.3 口径定义注意事项

1.3.1 口径定义遗漏场景

在定于口径时需要做到场景罗列完全并且场景互斥，符合MECE原则，如用近6个月未活跃的用户定义为流失用户，那需考虑以下场景：
1、前6个月未活跃，第7个月活跃的用户
2、6个月中5月未活跃，只有一个月活跃的用户
3、6个月中前5个月未活跃，最后一个月活跃的用户

1.3.2 数据口径频繁变化导致统计数据不准

如因为老是之前的数据被串改。导致每次统计当月的结果都会变化。可改成这个月的量等于总量减去上个月总量。

不会产品的码农不是好的运营

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
02标准建模流程:数据准备

文章目录数据准备1.1数据导入1.1.1 注意事项1.2 数据清洗1.2.1 缺失值1.2.1.1 处理思路1.2.1.2 注意事项1.2.2 重复值1.2.2.1 处理思路1.2.2.2 注意事项1.2.3 异常值1.2.3.1 处理思路1.2.3.2 注意事项1.3 口径定义注意事项1.3.1 口径定义遗漏场景1.3.2 数据口径频繁变化导致统计数据不准数据准备1.1数据导入1.1.1 注意事项1、数据孤岛A表在某个平台，B表在另外的平台，通过主键将A表和B表进行匹配，此时需要判断能匹配上的量
复制链接

扫一扫