excel查重_一步一步学会数据分析,EXCEL案例实操!

928bf61694d7232ef678198d5765cd59.png

写在前面:

由于几乎没有太多使用EXCEL的基础,所以在学习这一章节的时候异常吃力。不过没关系,在经过勤学苦练后,有了一点熟能生巧的感觉。我的学习方式是:1.听、2.记、3.练、4.整理,过程就没有必要贴出来了,直接上整理后的思维导图。

6fc9cff4888cccf6ef059f209b18b737.png

复习之前提出的问题:

在上一篇文章中已经把将要进行分析的数据研究了一下,如果参照以上思维导图的5步法则,其实一进完成了前两步。

上一篇文章的传送门:
鼓翼:任正非说:人工智能就是统计学,计算机与统计学就是人工智能。你听懂了吗?​zhuanlan.zhihu.com
a06c8ea7a99325029c0dd6788e7c4bd6.png

上一篇文章写到,想要分析的问题有:

在表1中:

  1. 以购买数量做为提取数据,进行数据分析,得出每一个用户购买数量的平均值。
  2. 利用四分位数和箱线图知识,计算出在哪个商品种类ID购买数量最多最畅销。
  3. 哪一种商品属性的商品购买次数最多?
  4. 通过都买时间和购买数量来分析,哪个月的购买数量最多,用户都购买了哪些商品?它们有什么特色?

在表2中:

  1. 通过四分位数分析哪个年龄段的婴儿最多?
  2. 婴儿男女比例?

表1+表2:

  1. 占比最高的婴儿是多少岁的什么性别,他们喜欢购买哪种商品,这些商品有什么特征?从2013年起,他们的购买趋势和购买特征有没有变化?

EXCEL实战练习(MacOS 10.15系统,OFFICE 365):

1.复制表格,为了养成良好的工作习惯,首先将表格加入后缀-原始数据,并妥善保存。

78b6955ee66619b1964de84464b82733.png

2.将表格复制一份,加入后缀-清洗数据。

b3af68ad08603bdd3a47581450a96991.png

3.将列名进行中文的重命名,以便于最终的分析。

1c633c95d7b0b0fcf1e156da54092fb8.png

4.查重用户ID和购买行为ID后,未发现重复值。

df4b285765f2d825d99172c142d78ffb.png

5.缺失值处理:经对比每列的计数发现,除商品属性外,其余列计数均为29972,使用数据→筛选找出空值,共有144个条数据没有商品属性。由于没有办法找到商品属性的数据,固在表中进行删除。删除后进行检查均为29828。

b3296b72583429d647ee03aa05d4fb8e.png

6.对商品属性进行分列处理,发现商品属性有很多项,都遵循AAA:BBB;的规律,所以使用分列功能对商品属性以;作为分割符号进行分列。PS.由于分列后会覆盖后面的列,所以我将商品属性复制粘贴到了最后列。

8c859e6893d26ee9715596819e28cebf.png

7.由于原表的日期为数字,为方便待会儿的使用,我重新更新了购买时间列的单元格格式。

0f4f22c01c2644f88a9da2123c28d2e7.png

表一清洗的数据完成。


8.再来清洗表2:

表2中的性别列中,0代表男性,1代表女性。我活学活用IF函数,将0值的False变为字符串"男"。

603fd252ee1212b71d35aa0afa39371c.png

9.表1+表2VLOOKUP:

由于想要把用户id和婴儿的年龄关联起来,所以就用到了VLOOKUP函数的跨表查询。

1a496ca2a22c9e4aae37f6f8a4a7f941.png

10.通过购买日期和婴儿的生日计算出年龄,这里使用了DATEDIF函数(=DATEDIF(小值,大值,"Y")&"岁")输出得到年龄,这里还用到了&,增加了"岁"的字符串。同时,在表1里增加了性别的列,当然也是使用VLOOPUP函数。

2ffd4a8ee2a33e08cd4b7bed8c4463a5.png

11.如果购买日期在婴儿出生之前,则会出现#NUM!,这里我将所有该错误值使用了IF函数,如果出生日期大于购买日期,则意为在出生前购买。

2d8fddc3be2140229e77b0ee9512374f.png

就此数据清洗完毕!!!


数据分析(构建模型):

在表1中:

1.以购买数量做为提取数据,进行数据分析,得出每一个用户购买数量的平均值。自2012年到2015年期间,每个用户平均购买了2.43个商品。

db8738e134eda2416847475c3be60a31.png

2.利用四分位数和箱线图知识,计算出在哪个商品种类ID购买数量最多最畅销。最畅销的商品种类为50018831,占比17.46%。

f36e26bb826ea2d8e3c270648e2b4eb8.png

3.哪一种商品类别的购买次数最多?28类商品购买次数最多,占总比34.27%。

191b46df317f99ac5119325101113c06.png

4.通过都买时间和购买数量来分析,哪个月的购买数量最多,用户都购买了哪些商品?它们有什么特色?2014年同比2013年购买数量明显增加,11月份为每年的峰值。

258061f49930d98987049ff5349d34ae.png

在表2中:

通过四分位数分析哪个年龄段的婴儿最多?0岁的最多。

7c600060f2ec164156bbb96397d012e4.png

5.婴儿男女比例?

7820b21338e34b913ac4d7a9de83cc9f.png

6.占比最高的婴儿是多少岁的什么性别,他们喜欢购买哪种商品,这些商品有什么特征?从2013年起,他们的购买趋势和购买特征有没有变化?

054aa7d8a065f1248669c1caf6f89769.png

写在最后:

函数和透视表的使用需要常常练习,更需要经常去看优秀的案例,才能熟练使用。另外在新工作的过程中,如果能接触到数据,多想多练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值