![ef3f642155a55cd99e57ad50527678e2.png](https://img-blog.csdnimg.cn/img_convert/ef3f642155a55cd99e57ad50527678e2.png)
谈到数据分析,我们可能第一时间想到python、SQL、Tableau、帆软、R等,但是这些软件、语言要入门掌握、系统学习起来耗时较长。这时候不得不提到excel这个“平平无奇数分小能手”了,看似基础,实则功能强大,可以完成数据处理、可视化很多工作。
数据分析的流程:①明确问题;②理解数据;③数据清洗;④数据分析或模型构建;⑤数据可视化。
1.明确问题
在迈步之前总要先确定前进的方向。数据分析也是一样,有了研究问题作导向,才能不断处理、分析数据来靠近我们所求的答案。
我使用的数据集以及问题明确都在前两篇文章中写清楚啦,详情请点击下面链接:
![b5bea2f971d965ac2087681c89411beb.png](https://img-blog.csdnimg.cn/img_convert/b5bea2f971d965ac2087681c89411beb.png)
![0993c632e3e8e19e7f9bcdfb8c851c60.png](https://img-blog.csdnimg.cn/img_convert/0993c632e3e8e19e7f9bcdfb8c851c60.png)
![9096333118f613118c5138063a59b916.png](https://img-blog.csdnimg.cn/img_convert/9096333118f613118c5138063a59b916.png)
2.理解数据
我即将分析用到的数据集,在上边两篇文章中有详细写对于数据指标的理解,请点击上面链接查看。
3.数据清洗
数据清洗的流程:①选择子集;②列名重命名;③删除重复值;④缺失值处理;⑤一致化处理;⑥数据排序;⑦异常值处理。
上述流程只是大概描述数据清洗的过程,实际应用中针对数据集特点可能有所不同。
1.重复值检查
婴儿信息表中,每位用户user_id应是唯一的,用户交易信息表中可能因为用户不同时段的交易,存在重复的user_id信息,故只处理婴儿信息表中的重复值。
具体操作:数据→删除重复值
操作结果:
![8434aeab94d057a03fd71d40113093de.png](https://img-blog.csdnimg.cn/img_convert/8434aeab94d057a03fd71d40113093de.png)
2.数据格式一致化处理
两张数据表中都有日期数据,首先需要检查并处理其格式为“日期”格式。
具体操作:
![c7a05ca3f7f894a3a3d7e4368c709636.png](https://img-blog.csdnimg.cn/img_convert/c7a05ca3f7f894a3a3d7e4368c709636.png)
![d55bf1e77ac577aa4390dab4b9645481.png](https://img-blog.csdnimg.cn/img_convert/d55bf1e77ac577aa4390dab4b9645481.png)
![6c4d64edc8126857d16ed3d55b2cc72a.png](https://img-blog.csdnimg.cn/img_convert/6c4d64edc8126857d16ed3d55b2cc72a.png)
操作结果:数据转变成正确的日期格式!
![d61519173f17d18b51fee2ceba25d7f1.png](https://img-blog.csdnimg.cn/img_convert/d61519173f17d18b51fee2ceba25d7f1.png)
3.数据表联结
为了探究问题所需,以用户交易信息表和婴儿信息表中的user_id为联结字段,匹配交易用户对应的性别gender及出生日期birthday。
具体操作:
![56547d663832363b8da6cf1e2da736c5.png](https://img-blog.csdnimg.cn/img_convert/56547d663832363b8da6cf1e2da736c5.png)
![e7b3fcb059c0aa4502701bf4a3aa2dc4.png](https://img-blog.csdnimg.cn/img_convert/e7b3fcb059c0aa4502701bf4a3aa2dc4.png)
操作结果:匹配后发现birthday、gender两列存在#N/A值,查证后发现函数应用无误,应该是部分用户没有登记出生日期、性别信息,可将这些数据删除。
![425a8d308017c9c8935808498e5f2948.png](https://img-blog.csdnimg.cn/img_convert/425a8d308017c9c8935808498e5f2948.png)
4.创建新字段
为了之后调查不同年龄交易用户的消费习惯,需要创建年龄age字段。
具体操作:
![6afe24ac9dba03718b975c24c344b743.png](https://img-blog.csdnimg.cn/img_convert/6afe24ac9dba03718b975c24c344b743.png)
操作结果:显示年龄age有正有负,说明婴儿还未出生。为了规范数据信息,创建辅助表来确定每个用户的所属年龄段。
具体操作:
![15afd8289dc46e3405b9e8dc9c978678.png](https://img-blog.csdnimg.cn/img_convert/15afd8289dc46e3405b9e8dc9c978678.png)
![128fc30e665afbe2ddf6988e79857a8d.png](https://img-blog.csdnimg.cn/img_convert/128fc30e665afbe2ddf6988e79857a8d.png)
操作结果:
![94f31506287b7efdf7f18ca8350a8fb5.png](https://img-blog.csdnimg.cn/img_convert/94f31506287b7efdf7f18ca8350a8fb5.png)
5.缺失值、异常值处理
具体操作:开始→查找和选择→定位条件→空值;查看年龄age字段数据,发现有婴儿年龄为28,为异常数据,删除即可。
4.数据分析/问题探究
问题1:不同时间内消费情况差异
具体操作:建立数据透视表,交易日期day为行,购买数量buy_mount求和,统计不同年份、月份对应的交易订单数。
操作结果:
![8f0013e39d3cd865a3c3f53c2001c771.png](https://img-blog.csdnimg.cn/img_convert/8f0013e39d3cd865a3c3f53c2001c771.png)
![6a19a2077ee175abf940f20ac8bf01fc.png](https://img-blog.csdnimg.cn/img_convert/6a19a2077ee175abf940f20ac8bf01fc.png)
可以很明显地看到2014年11月消费订单数激增,远超其他时期订单数目,“双十一”活动开始成为全民购物日。
问题2:不同年龄用户消费差异
具体操作:以年龄age、buy_mount、品类cat1、宝宝年龄段创建透视表;其中年龄age为-1、-2、-3的用户归为未出生组。
操作结果:
![64cd4825f856e92cecc9213ff684f6c5.png](https://img-blog.csdnimg.cn/img_convert/64cd4825f856e92cecc9213ff684f6c5.png)
![3bbe483c06fe28ddb2c5a48acade6eb2.png](https://img-blog.csdnimg.cn/img_convert/3bbe483c06fe28ddb2c5a48acade6eb2.png)
如上表所示:未出生婴儿对应的用户购买数量最多,而在物品品类方面,品类为’28’的物品受到所有用户最多喜爱;除此之外,0-2岁年龄段用户消费数量占比高达60%,是消费的主力群体。
问题3:不同性别用户间消费品类差异
具体操作:以性别gender、buy_mount、品类cat1创建透视表进行分析。
操作结果:
![896cf688dab996fbede459742b8786f0.png](https://img-blog.csdnimg.cn/img_convert/896cf688dab996fbede459742b8786f0.png)
从表中可知,男性消费数量略高于女性;在购物品类方面,女性购买品类’28’数量最多,男性购买品类’50014815’数量最多。
问题4:用户复购情况
具体操作:这里我将用户交易次数超过1视为用户产生复购行为。
操作结果:
![834a81b9dfa183429f6d5ca480f171fa.png](https://img-blog.csdnimg.cn/img_convert/834a81b9dfa183429f6d5ca480f171fa.png)
从表中可知,共25名用户产生多次购买行为,占总交易用户数的比例非常之小,有可能是原始数据记录存在问题或其他情况。
问题5:不同品类之间购买情况比较
具体操作:利用数据透视表统计不同品类cat1对应的购买数量。
操作结果:
![8d85d4a750b5982d8c7f05aac675e3a9.png](https://img-blog.csdnimg.cn/img_convert/8d85d4a750b5982d8c7f05aac675e3a9.png)
从表中可以知道,品类消费数量最多的是’28’、’50008168’、’50014815’,三者总共占比接近90%。
问题6:同一品类下不同子类别购买情况比较
![f6b8d731e43507c07d1addae0b974fcb.png](https://img-blog.csdnimg.cn/img_convert/f6b8d731e43507c07d1addae0b974fcb.png)
![433650ce5de764278bf7e08cab624849.png](https://img-blog.csdnimg.cn/img_convert/433650ce5de764278bf7e08cab624849.png)
![1a7e52a70fbe83d22fa4cdd946db77d6.png](https://img-blog.csdnimg.cn/img_convert/1a7e52a70fbe83d22fa4cdd946db77d6.png)
查看每一品类下的子类别占比,可知每个类别下消费数量最多的子品类。其中,’50014815’品类下消费数量最多的子类别为’50018831’,占总消费数的16.74%,远远超过了其他子类别的消费数量。
学习资源:
【训练营】职场Excel零基础入门 - 网易云课堂study.163.com 怎样用 Excel 做数据分析?www.zhihu.com![bc95c330d098adae3a51f3f297628cf8.png](https://img-blog.csdnimg.cn/img_convert/bc95c330d098adae3a51f3f297628cf8.png)
这里还有我总结的excel常用函数和常用快捷键,点击可看:
小小兔叽ya:Excel常用函数、快捷键——常看常熟zhuanlan.zhihu.com![84ea64dc830f9a1119e2f9b1ccd71410.png](https://img-blog.csdnimg.cn/img_convert/84ea64dc830f9a1119e2f9b1ccd71410.png)
Excel数据分析的流程大致如此,还有很多功能等待着我们去挖掘,需要常学习常温习。接下来准备学习制作可视化图表,下篇再见!
❤码字不易,求赞安慰❤