excel数据清洗_学会excel数据清洗

本文介绍了在阿里云天池的数据集BabyGoodsInfoData中进行数据清洗的过程,包括识别并处理异常值、重复值和缺失值。通过业务理解和统计方法,如标准分和四分位数,确定并删除异常购买行为。同时,分析了用户ID的重复值以揭示复购率,并提出了针对低复购率的市场策略,如促销和商品推荐。
摘要由CSDN通过智能技术生成

一、数据源之地

Baby Goods Info Data-数据集-阿里云天池​tianchi.aliyun.com
ff44335002be1ac8794805379a963797.png

二、数据清洗最关键的三个步骤

1、异常值

核心点:
(1) 结合业务进行判断——案例1
(2) 标准分:(-3)U(3)区间以外的,都算异常值——案例1
(3) 也可以用四分值法的k=1.5或k=3来判断

案例1——母婴产品数据分析

e3a26a8966e40ab5eca8e0b2bff08d12.png
提前超过9个月就购买

这些是提前超过9个月就购买的婴儿商品,不可能还没怀孕就想着买母婴产品。所以属于异常数据,删除。

6ce1771aeb9f63ba2dfa656514a151f3.png
未知性别的购买情况

6f2e87db976e64ae2f98272a1e7b1ba4.png
已知性别的购买情况

这些未知性别的宝宝,也有提前购买的商品。而且这些商品都属于一级分类商品中,销量最高的前三者,可以判断为是奶粉、纸尿布、洗护用品,属于不分性别就可以使用的。但是这三类商品,销量却只有1和3,对比已知性别的宝宝在这三类商品的购买信息,确实销量普遍在1和3,,符合用户购买规律,数据保留。

65ab47aa680d9a57bd006f267d1fed79.png
销量前三的一级商品——不同年龄销售情况

首先这三类商品,一开始我猜测为奶粉、纸尿布、洗护用品。然后会发现一个规律,就是尾号168的商品,在5岁之后,会急剧减少,而且9岁和11岁的孩子还在用。如果尾号168的商品是洗护用品,那这个数据就说的通了,符合生活逻辑,数据保留。

其次,尾号815和28的商品,就可能是奶粉和纸尿布了,这个跟年龄的相关性不大,哪个年龄段都可以使用,年龄稍微大点的孩子,也可能会存在尿床行为,而需要纸尿布。所以符合生活逻辑,数据保留。

1aa9747f820a8a7ed4984e45a294bec5.png
标准化找出异常值

这是标准化后,出现的异常情况。(即求标准分,且标准分大于3的情况)。而且这三类一级商品,极有可能是奶粉、洗护用品、玩具之类的,结合生活常识,这三种商品,不可能一次性购置那么多的量。所以,属于异常数据,删除。

小结:跟用户相关的指标,都是容易产生异常值的字段。(比如购买年龄、性别) 一级分类商品:可能指奶粉、纸尿布、洗护用品。 二级分类商品:可能指不同的品牌。

2、 重复值

核心点:
(1)全选数据, 找到表头有代表性的一个字段。

50e9ac500890133d8b90641b3849b1b3.png
删去“职位ID”的重复值

3、缺失值

核心点:
(1) 如果要分析某一列数据是否有缺,就拿它跟用户那一列数据的个数作对比
比如(用户列)的个数是957,(购买年龄列)的个数是641,就证明(购买年龄列)有缺失值。

3bf29c2d8c6825090069331bccc097cc.png
比较两列是否数量相同

三、从【发现问题】到【解决问题】

9ccfa7dec9fc02364317a0533f8f4f1c.png
从用户ID重复值体现复购率
数据中,重复购买的顾客只有两位。可以得知,商品的复购率和回购率很低。为什么他们选择不再次购买?一是嫌贵,二是嫌质量不好。
(1)嫌贵——结合销售月份的特点,对销量高的月份,进行提前推广、打折、算法推荐。比如: 双11,双12
(2)嫌质量不好——针对性的,推荐销量高的商品。(年龄推荐,性别推荐。)
比如:如果宝宝是 0-1岁男孩,就给他推荐 0-1岁男孩里卖的最好的商品。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值