列名无效如何解决_如何运用Excel 来分析一系列数据

12725f9a946c48330993b325328a63e4.png

在拿到excel 数据之时,总是会无法清楚该如何处理。 实际上,正常地处理Excel的数据则分以下几个步骤:

1.提出问题

2.理解问题

3.数据清洗

4.构建模型

5.数据可视化

为了切合实际,在拿到两个表格后,对于每一列的字段做了一些猜测和分析。具体可看以下这个链接中。

datedata:描述性统计分析相关之一二​zhuanlan.zhihu.com

在这样的基础上,以及还暂时不太了解行业数据和操作细节的情况下,某些问题可能无法从这些数据中得到答案。所以结合实际,并为了分析这些数据作出总结,我再重新对两个excel 的数据做了整理和并按照正常的顺序来进行分析:

1. 提出问题&理解问题

为了更好得理解数据,我先把每一个字段都改为了中文名称。 并且并没有发觉数据需要修改字符串等问题。

de775783be553d5d11ee8b5625082c2f.png

最后总结而来,认为两个表格结合之下可以提出并得到以下问题的答案:

从用户层面来看,哪些用户是资深用户? 占比多少?购买频率如何?

从商品层面看,这些资深用户购买哪些产品比较多?

从用户特性来,购买者的婴儿性别和年龄分布如何?

2. 数据清洗

1) 选择子集

一半都是对一些重复列或者不重要的列来进行隐藏。目前数据中都还是亟待需要的。

2) 列名重复名

数据中实际并不存在重复的列名,故没有做任何修改

3) 删除重复值

通过数据选项卡中的“删除重复项”来进行删除。

a3b7313cacc363a99a8d058c3957458d.png

4) 缺失值处理

全选后,看到一共又超过3万条数据,并且通过“查找和选择”中的“定位条件”来定位到了所有空值。 我先对所有空值进行了黄色的标记。本打算通过商品二级属性来补全缺失值,但是缺失值中不存在任何规律可言,在不了解行业数据和运作模式的情况下,也很难去揣测出所有缺失值应是为何值。故先做标记后,再来处理。

dcd136f19a52364725e53164dfcb16a2.png

5) 一致化处理

目前数据来看,只有购买日期和婴儿出生日期不方便我们的分析。故通过用分隔符号的方法来进行分割,并统一修改为“YMD” 的格式。

99ffd2c4148687be18d081e3db9687f0.png

6) 数据排序

表中很多字段都可以排序,可以用过用户ID、交易ID、购买日期和婴儿生日等来进行排序。实现这一效果,则是通过筛选中的“降序”和“升序”来完成。

7) 异常值处理

商品属性这一列中,存在缺失值。由于不清楚如何处理,故视作无效数据,进行了删除。 另外又发觉行中,婴儿的性别为“2” 和N/A。 其中N/A的情况可能是购买者当时还并不确定婴儿的性别。但是标记为“2” 的数据都可视作为异常值,故删除。

在上一堂课中, 我们学到了四分位数来区分异常值。所有我也尝试运用了这个方法,先运用Quartile、Min和Max函数来求得。 采用Tukey’s test来验证的话,k取值3的话,有问题的是最大值。

89fbea70f1952ba7657d37dc7916b3dc.png

56348e0cae88826684e1e20ec09a94c9.png

但是看了所有购买数量的分布,购买数量超过“10”的交易,占所有交易量14%左右。在做到这一步的时候,认为存在个别异常的用户,且这类数据对总体数据不存在绝对的影响。故仅仅了解到,并不打算做进一步的处理。最后清洗完后,得到了29,238条有效数据。

3. 构建模型和数据可视化

为了方便数据的处理,我已经在做数据清洗之前,先用vlookup函数将两个表格的数据全部整合到一起。

其次是用过Dateif函数开计算实际婴儿的年龄。

最后运用数据透视表来进行筛选整理和分析。

1) 再回到我们之前提出的第一个问题:从用户层面来看,哪些用户是资深用户? 占比多少?购买频率如何?购买趋势如何

9cebe32a16193ec2ba0f6068e7458844.png

34f313bb9d97ce4bdd2a970fceec4d95.png

通过以上数据透视表和趋势图可看到,大约又52名消费者是该店铺的重复购买者,占实际总体的消费者总数(29,237) 的0.18%,并且购买频率基本都是一年一次。可见该店铺的重复购买率不高,产品的粘性较小。并且可以看到2014年11月,被重复购买的商品数量达到了近三年的历史峰值,在未知其他因素的条件下,可猜测这一年的双十一促销活动促进了这些重复购买者的购买行为。

2) 从商品层面看,这些资深用户购买哪些产品比较多?

2a4e22b00b107b2b71b4afd365ee12d3.png

最后可看出, 商品二级分类中,“28”和“50014815”的销量最好,这两类商品的销量可以占到整个店铺销量的63%。 也可以推测,这类产品是店铺的王牌产品,绝大多数的消费者来此店铺大多数都是购买这两类产品。

3) 从重复购买的用户特性来看,购买者的婴儿性别和年龄分布如何?

dd9c4b57e8160a612e2a7d3a7ee9c1e8.png

从重复购买者的数据中来看婴儿的年龄分布的话,其实可以看到这些用户的婴儿大部分还是处于5-7岁之间,可以推测,该产品是特别适用于婴儿某个年龄,且会经常使用。一旦过了这几岁,该产品将不会起到作用, 也就不存在用户在回头购买

2aafa922ccf7cd258b1ba762fc322849.png

从性别上看,又34名购买者的婴儿性别为“1” 占比65%。但是这里的比例在全部的购买之前还是少之又少。 如果撇开重复购买的情况,查看所有用户的婴儿性别,如下图,看到只在该店铺买过一次的消费者的婴儿性别相对分布平均。但是婴儿性别为“0” 的购买者相对更多约56%。

fa64663147f24cace28ade80d093d4d9.png

如果将在所有店铺购买过的用户的婴儿性别做一个统计,如下图,婴儿的两个比例都相对平均,但是“0”在所有的总量上占比又多,也是约56%。最后只能达成一个结论,那就是单次购买者的宝宝性别为“0”的购买几率相对更大一些,重复购买者的宝宝大部分又是“1” 。

515a767ae774ec69b2e847688a332156.png

最后结合所有的分析,可以达到结论,也就是该商铺的产品粘性不大,重复购买者比例非常小, 且重复购买者都会集中在特定产品上多次购买。 他们的孩子年龄相对集中,性别为“1”的较多。 但是纵观大局,整个店铺的爆款的购买者都是购买单次,且很少回头。 孩子的年龄对于购买决策的影响力会比

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值