一、数据源之地
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com二、数据清洗最关键的三个步骤
1、异常值
核心点:
(1) 结合业务进行判断——案例1
(2) 标准分:(-3)U(3)区间以外的,都算异常值——案例1
(3) 也可以用四分值法的k=1.5或k=3来判断
案例1——母婴产品数据分析
这些是提前超过9个月就购买的婴儿商品,不可能还没怀孕就想着买母婴产品。所以属于异常数据,删除。
这些未知性别的宝宝,也有提前购买的商品。而且这些商品都属于一级分类商品中,销量最高的前三者,可以判断为是奶粉、纸尿布、洗护用品,属于不分性别就可以使用的。但是这三类商品,销量却只有1和3,对比已知性别的宝宝在这三类商品的购买信息,确实销量普遍在1和3,,符合用户购买规律,数据保留。
首先这三类商品,一开始我猜测为奶粉、纸尿布、洗护用品。然后会发现一个规律,就是尾号168的商品,在5岁之后,会急剧减少,而且9岁和11岁的孩子还在用。如果尾号168的商品是洗护用品,那这个数据就说的通了,符合生活逻辑,数据保留。
其次,尾号815和28的商品,就可能是奶粉和纸尿布了,这个跟年龄的相关性不大,哪个年龄段都可以使用,年龄稍微大点的孩子,也可能会存在尿床行为,而需要纸尿布。所以符合生活逻辑,数据保留。
这是标准化后,出现的异常情况。(即求标准分,且标准分大于3的情况)。而且这三类一级商品,极有可能是奶粉、洗护用品、玩具之类的,结合生活常识,这三种商品,不可能一次性购置那么多的量。所以,属于异常数据,删除。
小结:跟用户相关的指标,都是容易产生异常值的字段。(比如购买年龄、性别) 一级分类商品:可能指奶粉、纸尿布、洗护用品。 二级分类商品:可能指不同的品牌。
2、 重复值
核心点:
(1)全选数据, 找到表头有代表性的一个字段。
3、缺失值
核心点:
(1) 如果要分析某一列数据是否有缺,就拿它跟用户那一列数据的个数作对比
比如(用户列)的个数是957,(购买年龄列)的个数是641,就证明(购买年龄列)有缺失值。
三、从【发现问题】到【解决问题】
数据中,重复购买的顾客只有两位。可以得知,商品的复购率和回购率很低。为什么他们选择不再次购买?一是嫌贵,二是嫌质量不好。
(1)嫌贵——结合销售月份的特点,对销量高的月份,进行提前推广、打折、算法推荐。比如: 双11,双12。
(2)嫌质量不好——针对性的,推荐销量高的商品。(年龄推荐,性别推荐。)
比如:如果宝宝是 0-1岁的 男孩,就给他推荐 0-1岁的 男孩里卖的最好的商品。