excel数据清洗_学会excel数据清洗

最新推荐文章于 2022-11-14 16:00:39 发布

weixin_39630048

最新推荐文章于 2022-11-14 16:00:39 发布

阅读量326

点赞数

文章标签： excel数据清洗

本文介绍了在阿里云天池的数据集BabyGoodsInfoData中进行数据清洗的过程，包括识别并处理异常值、重复值和缺失值。通过业务理解和统计方法，如标准分和四分位数，确定并删除异常购买行为。同时，分析了用户ID的重复值以揭示复购率，并提出了针对低复购率的市场策略，如促销和商品推荐。

摘要由CSDN通过智能技术生成

一、数据源之地

Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com

二、数据清洗最关键的三个步骤

1、异常值

核心点：
（1）结合业务进行判断——案例1
（2）标准分：（-3）U（3）区间以外的，都算异常值——案例1
（3）也可以用四分值法的k=1.5或k=3来判断

案例1——母婴产品数据分析

提前超过9个月就购买

这些是提前超过9个月就购买的婴儿商品，不可能还没怀孕就想着买母婴产品。所以属于异常数据，删除。

未知性别的购买情况

已知性别的购买情况

这些未知性别的宝宝，也有提前购买的商品。而且这些商品都属于一级分类商品中，销量最高的前三者，可以判断为是奶粉、纸尿布、洗护用品，属于不分性别就可以使用的。但是这三类商品，销量却只有1和3，对比已知性别的宝宝在这三类商品的购买信息，确实销量普遍在1和3，,符合用户购买规律，数据保留。

销量前三的一级商品——不同年龄销售情况

首先这三类商品，一开始我猜测为奶粉、纸尿布、洗护用品。然后会发现一个规律，就是尾号168的商品，在5岁之后，会急剧减少，而且9岁和11岁的孩子还在用。如果尾号168的商品是洗护用品，那这个数据就说的通了，符合生活逻辑，数据保留。

其次，尾号815和28的商品，就可能是奶粉和纸尿布了，这个跟年龄的相关性不大，哪个年龄段都可以使用，年龄稍微大点的孩子，也可能会存在尿床行为，而需要纸尿布。所以符合生活逻辑，数据保留。

标准化找出异常值

这是标准化后，出现的异常情况。（即求标准分，且标准分大于3的情况）。而且这三类一级商品，极有可能是奶粉、洗护用品、玩具之类的，结合生活常识，这三种商品，不可能一次性购置那么多的量。所以，属于异常数据，删除。

小结：跟用户相关的指标，都是容易产生异常值的字段。（比如购买年龄、性别） 一级分类商品：可能指奶粉、纸尿布、洗护用品。 二级分类商品：可能指不同的品牌。

2、 重复值

核心点：
（1）全选数据，找到表头有代表性的一个字段。

删去“职位ID”的重复值

3、缺失值

核心点：
（1）如果要分析某一列数据是否有缺，就拿它跟用户那一列数据的个数作对比
比如（用户列）的个数是957，（购买年龄列）的个数是641，就证明（购买年龄列）有缺失值。

比较两列是否数量相同

三、从【发现问题】到【解决问题】

从用户ID重复值体现复购率

数据中，重复购买的顾客只有两位。可以得知，商品的复购率和回购率很低。为什么他们选择不再次购买？一是嫌贵，二是嫌质量不好。
（1）嫌贵——结合销售月份的特点，对销量高的月份，进行提前推广、打折、算法推荐。比如： 双11，双12。
（2）嫌质量不好——针对性的，推荐销量高的商品。（年龄推荐，性别推荐。）
比如：如果宝宝是 0-1岁的男孩，就给他推荐 0-1岁的男孩里卖的最好的商品。