在拿到excel 数据之时,总是会无法清楚该如何处理。 实际上,正常地处理Excel的数据则分以下几个步骤:
1.提出问题
2.理解问题
3.数据清洗
4.构建模型
5.数据可视化
为了切合实际,在拿到两个表格后,对于每一列的字段做了一些猜测和分析。具体可看以下这个链接中。
datedata:描述性统计分析相关之一二zhuanlan.zhihu.com在这样的基础上,以及还暂时不太了解行业数据和操作细节的情况下,某些问题可能无法从这些数据中得到答案。所以结合实际,并为了分析这些数据作出总结,我再重新对两个excel 的数据做了整理和并按照正常的顺序来进行分析:
1. 提出问题&理解问题
为了更好得理解数据,我先把每一个字段都改为了中文名称。 并且并没有发觉数据需要修改字符串等问题。
最后总结而来,认为两个表格结合之下可以提出并得到以下问题的答案:
从用户层面来看,哪些用户是资深用户? 占比多少?购买频率如何?
从商品层面看,这些资深用户购买哪些产品比较多?
从用户特性来,购买者的婴儿性别和年龄分布如何?
2. 数据清洗
1) 选择子集
一半都是对一些重复列或者不重要的列来进行隐藏。目前数据中都还是亟待需要的。
2) 列名重复名
数据中实际并不存在重复的列名,故没有做任何修改
3) 删除重复值
通过数据选项卡中的“删除重复项”来进行删除。
4) 缺失值处理
全选后,看到一共又超过3万条数据,并且通过“查找和选择”中的“定位条件”来定位到了所有空值。 我先对所有空值进行了黄色的标记。本打算通过商品二级属性来补全缺失值,但是缺失值中不存在任何规律可言,在不了解行业数据和运作模式的情况下,也很难去揣测出所有缺失值应是为何值。故先做标记后,再来处理。
5) 一致化处理
目前数据来看,只有购买日期和婴儿出生日期不方便我们的分析。故通过用分隔符号的方法来进行分割,并统一修改为“YMD” 的格式。
6) 数据排序
表中很多字段都可以排序,可以用过用户ID、交易ID、购买日期和婴儿生日等来进行排序。实现这一效果,则是通过筛选中的“降序”和“升序”来完成。
7) 异常值处理
商品属性这一列中,存在缺失值。由于不清楚如何处理,故视作无效数据,进行了删除。 另外又发觉行中,婴儿的性别为“2” 和N/A。 其中N/A的情况可能是购买者当时还并不确定婴儿的性别。但是标记为“2” 的数据都可视作为异常值,故删除。
在上一堂课中, 我们学到了四分位数来区分异常值。所有我也尝试运用了这个方法,先运用Quartile、Min和Max函数来求得。 采用Tukey’s test来验证的话,k取值3的话,有问题的是最大值。
但是看了所有购买数量的分布,购买数量超过“10”的交易,占所有交易量14%左右。在做到这一步的时候,认为存在个别异常的用户,且这类数据对总体数据不存在绝对的影响。故仅仅了解到,并不打算做进一步的处理。最后清洗完后,得到了29,238条有效数据。
3. 构建模型和数据可视化
为了方便数据的处理,我已经在做数据清洗之前,先用vlookup函数将两个表格的数据全部整合到一起。
其次是用过Dateif函数开计算实际婴儿的年龄。
最后运用数据透视表来进行筛选整理和分析。
1) 再回到我们之前提出的第一个问题:从用户层面来看,哪些用户是资深用户? 占比多少?购买频率如何?购买趋势如何
通过以上数据透视表和趋势图可看到,大约又52名消费者是该店铺的重复购买者,占实际总体的消费者总数(29,237) 的0.18%,并且购买频率基本都是一年一次。可见该店铺的重复购买率不高,产品的粘性较小。并且可以看到2014年11月,被重复购买的商品数量达到了近三年的历史峰值,在未知其他因素的条件下,可猜测这一年的双十一促销活动促进了这些重复购买者的购买行为。
2) 从商品层面看,这些资深用户购买哪些产品比较多?
最后可看出, 商品二级分类中,“28”和“50014815”的销量最好,这两类商品的销量可以占到整个店铺销量的63%。 也可以推测,这类产品是店铺的王牌产品,绝大多数的消费者来此店铺大多数都是购买这两类产品。
3) 从重复购买的用户特性来看,购买者的婴儿性别和年龄分布如何?
从重复购买者的数据中来看婴儿的年龄分布的话,其实可以看到这些用户的婴儿大部分还是处于5-7岁之间,可以推测,该产品是特别适用于婴儿某个年龄,且会经常使用。一旦过了这几岁,该产品将不会起到作用, 也就不存在用户在回头购买
从性别上看,又34名购买者的婴儿性别为“1” 占比65%。但是这里的比例在全部的购买之前还是少之又少。 如果撇开重复购买的情况,查看所有用户的婴儿性别,如下图,看到只在该店铺买过一次的消费者的婴儿性别相对分布平均。但是婴儿性别为“0” 的购买者相对更多约56%。
如果将在所有店铺购买过的用户的婴儿性别做一个统计,如下图,婴儿的两个比例都相对平均,但是“0”在所有的总量上占比又多,也是约56%。最后只能达成一个结论,那就是单次购买者的宝宝性别为“0”的购买几率相对更大一些,重复购买者的宝宝大部分又是“1” 。
最后结合所有的分析,可以达到结论,也就是该商铺的产品粘性不大,重复购买者比例非常小, 且重复购买者都会集中在特定产品上多次购买。 他们的孩子年龄相对集中,性别为“1”的较多。 但是纵观大局,整个店铺的爆款的购买者都是购买单次,且很少回头。 孩子的年龄对于购买决策的影响力会比