数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧

ef3f642155a55cd99e57ad50527678e2.png

谈到数据分析,我们可能第一时间想到python、SQL、Tableau、帆软、R等,但是这些软件、语言要入门掌握、系统学习起来耗时较长。这时候不得不提到excel这个“平平无奇数分小能手”了,看似基础,实则功能强大,可以完成数据处理、可视化很多工作。

数据分析的流程:①明确问题;②理解数据;③数据清洗;④数据分析或模型构建;⑤数据可视化。

1.明确问题

在迈步之前总要先确定前进的方向。数据分析也是一样,有了研究问题作导向,才能不断处理、分析数据来靠近我们所求的答案。

我使用的数据集以及问题明确都在前两篇文章中写清楚啦,详情请点击下面链接:

b5bea2f971d965ac2087681c89411beb.png
待研究的问题
小小兔叽ya:数据分析小白学习之路(一)——确立目标​zhuanlan.zhihu.com
0993c632e3e8e19e7f9bcdfb8c851c60.png
小小兔叽ya:数据分析小白学习之路(二)——统计学基础、业务了解​zhuanlan.zhihu.com
9096333118f613118c5138063a59b916.png

2.理解数据

我即将分析用到的数据集,在上边两篇文章中有详细写对于数据指标的理解,请点击上面链接查看。

3.数据清洗

数据清洗的流程:①选择子集;②列名重命名;③删除重复值;④缺失值处理;⑤一致化处理;⑥数据排序;⑦异常值处理。

上述流程只是大概描述数据清洗的过程,实际应用中针对数据集特点可能有所不同。

1.重复值检查

婴儿信息表中,每位用户user_id应是唯一的,用户交易信息表中可能因为用户不同时段的交易,存在重复的user_id信息,故只处理婴儿信息表中的重复值。

具体操作:数据→删除重复值

操作结果:

8434aeab94d057a03fd71d40113093de.png
无重复值需要处理

2.数据格式一致化处理

两张数据表中都有日期数据,首先需要检查并处理其格式为“日期”格式。

具体操作:

c7a05ca3f7f894a3a3d7e4368c709636.png

d55bf1e77ac577aa4390dab4b9645481.png

6c4d64edc8126857d16ed3d55b2cc72a.png

操作结果:数据转变成正确的日期格式!

d61519173f17d18b51fee2ceba25d7f1.png
日期数据格式处理

3.数据表联结

为了探究问题所需,以用户交易信息表和婴儿信息表中的user_id为联结字段,匹配交易用户对应的性别gender及出生日期birthday。

具体操作:

56547d663832363b8da6cf1e2da736c5.png

e7b3fcb059c0aa4502701bf4a3aa2dc4.png
利用vlookup函数来查找匹配birthday和gender

操作结果:匹配后发现birthday、gender两列存在#N/A值,查证后发现函数应用无误,应该是部分用户没有登记出生日期、性别信息,可将这些数据删除。

425a8d308017c9c8935808498e5f2948.png

4.创建新字段

为了之后调查不同年龄交易用户的消费习惯,需要创建年龄age字段。

具体操作:

6afe24ac9dba03718b975c24c344b743.png
(购买日期-出生日期)求出交易时用户年龄,并用int函数向下取整

操作结果:显示年龄age有正有负,说明婴儿还未出生。为了规范数据信息,创建辅助表来确定每个用户的所属年龄段。

具体操作:

15afd8289dc46e3405b9e8dc9c978678.png
创建婴儿年龄段辅助表

128fc30e665afbe2ddf6988e79857a8d.png
vlookup查找

操作结果:

94f31506287b7efdf7f18ca8350a8fb5.png
生成“宝宝年龄段”列

5.缺失值、异常值处理

具体操作:开始→查找和选择→定位条件→空值;查看年龄age字段数据,发现有婴儿年龄为28,为异常数据,删除即可。

4.数据分析/问题探究

问题1不同时间内消费情况差异

具体操作:建立数据透视表,交易日期day为行,购买数量buy_mount求和,统计不同年份、月份对应的交易订单数。

操作结果:

8f0013e39d3cd865a3c3f53c2001c771.png
不同年份对应的交易订单数

6a19a2077ee175abf940f20ac8bf01fc.png
按月统计用户购买数量

可以很明显地看到2014年11月消费订单数激增,远超其他时期订单数目,“双十一”活动开始成为全民购物日。

问题2:不同年龄用户消费差异

具体操作:以年龄age、buy_mount、品类cat1、宝宝年龄段创建透视表;其中年龄age为-1、-2、-3的用户归为未出生组。

操作结果:

64cd4825f856e92cecc9213ff684f6c5.png
不同年龄用户购买数量差异

3bbe483c06fe28ddb2c5a48acade6eb2.png
不同年龄段用户购买数量差异

如上表所示:未出生婴儿对应的用户购买数量最多,而在物品品类方面,品类为’28’的物品受到所有用户最多喜爱;除此之外,0-2岁年龄段用户消费数量占比高达60%,是消费的主力群体。

问题3:不同性别用户间消费品类差异

具体操作:以性别gender、buy_mount、品类cat1创建透视表进行分析。

操作结果:

896cf688dab996fbede459742b8786f0.png

从表中可知,男性消费数量略高于女性;在购物品类方面,女性购买品类’28’数量最多,男性购买品类’50014815’数量最多。

问题4:用户复购情况

具体操作:这里我将用户交易次数超过1视为用户产生复购行为。

操作结果:

834a81b9dfa183429f6d5ca480f171fa.png

从表中可知,共25名用户产生多次购买行为,占总交易用户数的比例非常之小,有可能是原始数据记录存在问题或其他情况。

问题5:不同品类之间购买情况比较

具体操作:利用数据透视表统计不同品类cat1对应的购买数量。

操作结果:

8d85d4a750b5982d8c7f05aac675e3a9.png
忘记排序了 ̄□ ̄||

从表中可以知道,品类消费数量最多的是’28’、’50008168’、’50014815’,三者总共占比接近90%。

问题6:同一品类下不同子类别购买情况比较

f6b8d731e43507c07d1addae0b974fcb.png

433650ce5de764278bf7e08cab624849.png

1a7e52a70fbe83d22fa4cdd946db77d6.png

查看每一品类下的子类别占比,可知每个类别下消费数量最多的子品类。其中,’50014815’品类下消费数量最多的子类别为’50018831’,占总消费数的16.74%,远远超过了其他子类别的消费数量。

学习资源:

【训练营】职场Excel零基础入门 - 网易云课堂​study.163.com 怎样用 Excel 做数据分析?​www.zhihu.com
bc95c330d098adae3a51f3f297628cf8.png

这里还有我总结的excel常用函数和常用快捷键,点击可看:

小小兔叽ya:Excel常用函数、快捷键——常看常熟​zhuanlan.zhihu.com
84ea64dc830f9a1119e2f9b1ccd71410.png

Excel数据分析的流程大致如此,还有很多功能等待着我们去挖掘,需要常学习常温习。接下来准备学习制作可视化图表,下篇再见!

❤码字不易,求赞安慰❤

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值