两万条数据需要做个数据图_第3关:基于Excel对电商母婴数据进行分析

1520d03eb300917fe33392e2c63bd83d.png

对于新手,拿到数据往往不知如何下手。那就按图索骥,依照以下五部一步步来

step1:明确问题 目标必须明确,基于当前业务出发。如一千个读者有一千个哈姆雷特一样,数据可以被解读出不同样子,必须集中目标,才能让数据有的放矢。否则,八成分析到最后,就像那老太太裹脚布班的无聊会议一样,又臭又长。

step2:理解数据 数据拿到手,至少要知道每一列代表的含义才好。这里建议把模糊定义的数据做个备注,方便自己理解,也方便日后展示时他人理解。

step3:数据清洗 这是漫漫数据分析路前的重头戏,删除重复值、处理异常值、补全缺失值、把文本数据转换成数值及日期……

step4:数据分析 以我粗浅的数据分析体验来说,这一步不太费脑子,按着目标一个个作答就行,如果觉得费脑子,就是技术不过关!

step5:数据可视化 可视化工具我现在只会python的皮毛还有excel,超爱excel,因为我崇拜PPTer,看看他们修该过的板式,真心赞叹图表精美(公众号:锐普PPT、利兄日记、islider都有超多好看的数据表可供参考)不过我觉得这一步应该再追加个结论,只把图扔给需求方,那是体力活,但提供了建议,可是干了脑力活,有种站在食物链顶端翻身做主人的快乐

dd55ec0b8640fec93a2bc0527bfef515.png

数据来源☞

Baby Goods Info Data-数据集-阿里云天池​tianchi.aliyun.com
a4bd3c8f87db8d3895ad83ff94ccff64.png

一、明确问题

天猫又搞来99什么节,紧接着十一双十一双旦,下半年的营销一浪高过一浪,店家冲业绩的关键时刻来了,想要通过数据分析帮助商家选品及对不同用户针对性地营销产品

  1. 商品销量和时间的关系(总销售量和时间的关系、不同种类商品和时间的关系)
  2. 用户喜爱哪些商品类别
  3. 不同性别婴儿偏爱的商品种类分别是哪些
  4. 不同年龄婴对不同产品种类需求是否有差异?不同年龄阶段的婴儿分别对哪些产品的需求更为旺盛?
  5. 顾客的平均消费时长是多久?用于对顾客进行召回

二、理解数据

数据由购买商品信息表及婴儿信息表组成

购买商品信息表里包含了29971条数据,由7个字段构成,分别是

  • user_id:用户id
  • auction_id:购买行为编号
  • cat_id:商品一级类目
  • cat1:商品二级类目,是cat_id的细化
  • property:商品属性
  • buy_mount:购买数量
  • day:购买时间

7c032f2792ccf47e6d139783062be485.png

婴儿信息表包含953条数据,3个字段:用户id,用户出生年月及性别(0女性;1男性;2未知的性别)

8980046dce30bc029eae1e9e266e8ead.png

三、数据清洗

a5cfed6432020356a11aad2a8a187712.png

1、选择子集:选择数据分析时需要的列,不需要的列也别删除,以便保持数据完整性,可以使用隐藏功能将列隐藏。(右键想要隐藏的列,选择“隐藏”;选择整个表格,“取消隐藏”)

商品表里,我选择隐藏了购买行为

5009153663673cabf97ef4661ccccb75.png

2、列名重命名:英文标头还是中文表头随你喜好,但是建议在用Python时使用英文,中英文互换让人头疼

6670d14dd88c8af73bdee93af546f55e.png

3、删除重复值:列名“用户id ”是唯一标识,若此列有重复就说明有重复数据。结果并未发现重复值┗( ▔, ▔ )┛

0e8dcb58bbb9b377fb42692f6c5d4d34.png

4、处理缺失值:用Excel右下角的计数功能,逐列对比,就能发现有没有缺失值了。

经检验发现商品信息表里商品属性一列有29803条数据,比总数29945有缺失,但也不是什么大事,就放着吧。婴儿表无缺失值。

dc6f329abc924c61595322794fd17a91.png

处理缺失值的办法有四:

1).利用“定位条件”找到空值进行人工手动补全。(适用于缺失数据较少的情况)

9102e7cae60d6bf9b73378fec08b099b.png

2).删除缺失的数据。

3).用平均值代替缺失值。

4).用统一模型计算出的值代替缺失值。

5、一致化处理:简言之日期要是日期形式的,数值不能是字符串形式的。(字符串类型在EXCEL里默认左对齐,数值类型默认右对齐)

日期处理出现了点麻烦,用分列来解决,分列的前两步无需管,直接按下一步,第三部如图所示就可以解决问题了

0d862c5fd609d4559e092ae01e3c5d91.png

本来我想要利用分列研究下商品属性,但发现里面的内容太多了,放弃吧~这里吧商品属性也隐藏

下面把婴儿表并到商品表里,采用vlookup查找信息进行拼接,结果发现出现好多空缺值。于是折返在商品表里查询了用户ID的重复值,有27条重复,看来大多用户数够买只有一次,如此求用户消费时间间隔貌似没有什么意义了。而且在此次拼接里,不知为何查询到的日期数据是错误的,所以我就折返到最初没有变更过日期的数据再次查询,查询后再做了时间处理

52f5da339f8344c74161799ea990af85.png

把拼接后的表格重新复制粘贴得到新表,有956条数据,并计算年龄(购买日期-出生年月)

ff6a1a1c38c829cc8d0ceadb534aad88.png

出现#NUM是因为购买日期在出生日期之前,利用筛选功能晒出这批数据,然后把这部分替换成备孕。同样利用筛选,把性别分别替换成男女未知,于是表格如下

26bea5a234cd5cca23e23f03d633ff36.png

6.数据排序:对数据排序可以发现很多有价值的信息

所以在这里对商品表的购买量进行了降序,购买悬殊还是挺大的

ec57bfa4e46b0a8f044e03f94735f457.png

对于合并表,去除备孕,再来对年龄进行排序,发现一个28岁的超大年龄宝宝,显然不符合常理,将其在合并表中删除~商品表中的购买数据还保留,严重怀疑是出生日期手滑写错了的

a62ba2897022d8dfe1ba0dcc66495e63.png

6、异常值处理 excel来处理异常值,用透视表发现端倪。刚刚通过排序剔除了一个数据,就先这样吧,之后用透视表来处理数据再让它大放异彩~~

在分析前,再来捋一下,我们要干啥,用啥表能达成目标~~~

22d93ad5875b42bdc21e44f9b83b8630.png

四、数据分析/五、数据可视化

数据可视化在数据分析完成时,顺手就可以做,在此合并为一个步骤

终于到了激动人心的分析环节,干巴爹~~~~✧*。 (ˊᗜˋ*) ✧*。

  1. 不同种类商品销量和时间的关系

先从总量来探寻总销售量与时间的关系

d445b56ef0c2cf0078df385b32bb9f48.png

然后把表格数据复制粘贴到新表,通过month(),year()函数提取年月,再通过&函数将年月合并,最后插入折线图

09b671a031c15d106d471fc8cfe1b13e.png

发现每年11月份的数据都较同期月份显著高,尤其是2014年11月份显著地高。

2014年11月份消费量为什么会显著高?

销售总量=人均消费量*消费人次

利用透视表,行设置为年月,列设置为用户ID,购买数量,由此统计出消费人次,当月人均购买量

6c600cb9172caf50c6806c260e3915e0.png

69e4cc87a0e30e7f1995288fd7d4c78b.png

通过图表发现在统计期间,每年11月份的消费人次都是较多的,人均购买量除了2013年,2012、2014均是高峰,为什么2013年人均消费下降了?是选品问题么?

再来分析不同种类商品销量在不同时间段是否存在一定的趋势?

分析之前,先来确定受用户喜爱的商品大类有哪些

dfab1ebd63ee8852d265da0ffce375bf.png

用户最喜欢编号28品类,和品类销量最少的产品销量相差10多倍

回归正题,来看受欢迎的品类销量与时间的关系

065f1d38ba4b7719c2af4a12361810a4.png

图中深色已经显示出各受欢迎品类一年之中销量高的月份

2.顾客的平均消费时长是多久?

因为在数据清洗时,针对商品表用户ID进行了重复值的筛选,发现在如此庞大的交易量中,只有26位回头客,占比为0.083%,所以统计此数据没有太大意义。

但值得思考用户回购率为何如此低?是因为商品质量不过关?还是因为商品售后无法让顾客满意?

3.不同性别婴儿偏爱的商品种类分别是哪些

b0dd4ff26c11ab341884582f78524314.png

40f7e34050101fb5445ae9c1b75248c9.png

由统计结果发现,男女宝宝喜欢的商品品类还是有差别的,但都归属在最受欢迎的商品品类里,而不喜欢的商品一致,和最不喜欢的商品品类重合。

4.不同年龄婴对不同产品种类需求是否有差异?不同年龄阶段的婴儿分别对哪些产品的需求更为旺盛?

579bf7281f13a3d682b8db5b233ddbc7.png

由数据可以发现不同年龄群体的偏爱程度还是有区别的,和上面的男女宝宝联合使用,有针对性对宝宝们推荐产品。

天啊 ,没想到终于写完了,其实没有那么复杂,只是要边写边截图,把内心戏写出来,就有点费劲了~~~加油~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值