写在前面:
由于几乎没有太多使用EXCEL的基础,所以在学习这一章节的时候异常吃力。不过没关系,在经过勤学苦练后,有了一点熟能生巧的感觉。我的学习方式是:1.听、2.记、3.练、4.整理,过程就没有必要贴出来了,直接上整理后的思维导图。
复习之前提出的问题:
在上一篇文章中已经把将要进行分析的数据研究了一下,如果参照以上思维导图的5步法则,其实一进完成了前两步。
上一篇文章的传送门:鼓翼:任正非说:人工智能就是统计学,计算机与统计学就是人工智能。你听懂了吗?zhuanlan.zhihu.com
上一篇文章写到,想要分析的问题有:
在表1中:
- 以购买数量做为提取数据,进行数据分析,得出每一个用户购买数量的平均值。
- 利用四分位数和箱线图知识,计算出在哪个商品种类ID购买数量最多最畅销。
- 哪一种商品属性的商品购买次数最多?
- 通过都买时间和购买数量来分析,哪个月的购买数量最多,用户都购买了哪些商品?它们有什么特色?
在表2中:
- 通过四分位数分析哪个年龄段的婴儿最多?
- 婴儿男女比例?
表1+表2:
- 占比最高的婴儿是多少岁的什么性别,他们喜欢购买哪种商品,这些商品有什么特征?从2013年起,他们的购买趋势和购买特征有没有变化?
EXCEL实战练习(MacOS 10.15系统,OFFICE 365):
1.复制表格,为了养成良好的工作习惯,首先将表格加入后缀-原始数据,并妥善保存。
2.将表格复制一份,加入后缀-清洗数据。
3.将列名进行中文的重命名,以便于最终的分析。
4.查重用户ID和购买行为ID后,未发现重复值。
5.缺失值处理:经对比每列的计数发现,除商品属性外,其余列计数均为29972,使用数据→筛选找出空值,共有144个条数据没有商品属性。由于没有办法找到商品属性的数据,固在表中进行删除。删除后进行检查均为29828。
6.对商品属性进行分列处理,发现商品属性有很多项,都遵循AAA:BBB;的规律,所以使用分列功能对商品属性以;作为分割符号进行分列。PS.由于分列后会覆盖后面的列,所以我将商品属性复制粘贴到了最后列。
7.由于原表的日期为数字,为方便待会儿的使用,我重新更新了购买时间列的单元格格式。
表一清洗的数据完成。
8.再来清洗表2:
表2中的性别列中,0代表男性,1代表女性。我活学活用IF函数,将0值的False变为字符串"男"。
9.表1+表2VLOOKUP:
由于想要把用户id和婴儿的年龄关联起来,所以就用到了VLOOKUP函数的跨表查询。
10.通过购买日期和婴儿的生日计算出年龄,这里使用了DATEDIF函数(=DATEDIF(小值,大值,"Y")&"岁")输出得到年龄,这里还用到了&,增加了"岁"的字符串。同时,在表1里增加了性别的列,当然也是使用VLOOPUP函数。
11.如果购买日期在婴儿出生之前,则会出现#NUM!,这里我将所有该错误值使用了IF函数,如果出生日期大于购买日期,则意为在出生前购买。
就此数据清洗完毕!!!
数据分析(构建模型):
在表1中:
1.以购买数量做为提取数据,进行数据分析,得出每一个用户购买数量的平均值。自2012年到2015年期间,每个用户平均购买了2.43个商品。
2.利用四分位数和箱线图知识,计算出在哪个商品种类ID购买数量最多最畅销。最畅销的商品种类为50018831,占比17.46%。
3.哪一种商品类别的购买次数最多?28类商品购买次数最多,占总比34.27%。
4.通过都买时间和购买数量来分析,哪个月的购买数量最多,用户都购买了哪些商品?它们有什么特色?2014年同比2013年购买数量明显增加,11月份为每年的峰值。
在表2中:
通过四分位数分析哪个年龄段的婴儿最多?0岁的最多。
5.婴儿男女比例?
6.占比最高的婴儿是多少岁的什么性别,他们喜欢购买哪种商品,这些商品有什么特征?从2013年起,他们的购买趋势和购买特征有没有变化?
写在最后:
函数和透视表的使用需要常常练习,更需要经常去看优秀的案例,才能熟练使用。另外在新工作的过程中,如果能接触到数据,多想多练。