![4d9e731ca429c9bdf38e1dfdfd261baa.png](https://img-blog.csdnimg.cn/img_convert/4d9e731ca429c9bdf38e1dfdfd261baa.png)
数据分析5步曲
![247c5b9dea949ea6a99b5fd1dbe5bbc6.png](https://img-blog.csdnimg.cn/img_convert/247c5b9dea949ea6a99b5fd1dbe5bbc6.png)
excel数据清洗7步曲
在明确要解决什么问题、理解了数据集字段含义后,往往就到了数据清洗的部分,具体步骤如下图。
![0a911ff27f8e8ed3f36430722d7413fe.png](https://img-blog.csdnimg.cn/img_convert/0a911ff27f8e8ed3f36430722d7413fe.png)
实操练习:
数据集
数据来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
表内容和字段定义如下:
![7e152cc2ff4015d8437a32332de26b49.png](https://img-blog.csdnimg.cn/img_convert/7e152cc2ff4015d8437a32332de26b49.png)
![8b7917a43d4250647f5c79fe8c9bb160.png](https://img-blog.csdnimg.cn/img_convert/8b7917a43d4250647f5c79fe8c9bb160.png)
1.数据清洗
1.1选择子集
由于这份电商数据字段较少,我先将表一和表二根据user_id利用函数vlookup连接成一张表,并隐藏porperty列。
![0396f3d6ce8c64312f8411455e5c66c0.png](https://img-blog.csdnimg.cn/img_convert/0396f3d6ce8c64312f8411455e5c66c0.png)
H2单元格的公式为 =VLOOKUP($A3,'[D-表2婴儿信息.xls]表2婴儿信息'!$A:$C,2,FALSE)
I3单元格的公式为 =VLOOKUP($A3,'[D-表2婴儿信息.xls]表2婴儿信息'!$A:$C,3,FALSE)
1.2列名重命名
为了方便理解,我将列名改为中文名。
1.3删除重复值
根据电商客户的购买行为可知,一个用户可以有多条购买记录,而表里没有唯一的标识。我将"用户ID"、"物品ID"、“购买数量”、"购买时间"合并成一个新的字段"唯一性",加一列辅助列用函数来判断"唯一性"是否有重复(利用工具栏的条件格式里的突出重复项;或者增加一列辅助列,使用函数countif来计算,若个数是1,说明不重复,反之重复)
![5529ab3981b18e7780f95269d19d7bb0.png](https://img-blog.csdnimg.cn/img_convert/5529ab3981b18e7780f95269d19d7bb0.png)
结果辅助列都是1,也就是此表没有重复值。
1.4缺失值处理
数据透视表后取各字段的计数项,看出"商品属性"有空值,恰巧我们这次分析还不上商品属性,所以先做忽略处理。
![98506e3ff40134817de9c22813ad41a3.png](https://img-blog.csdnimg.cn/img_convert/98506e3ff40134817de9c22813ad41a3.png)
1.5一致化处理
1.5.1将"购买时间"和"出生日期"利用分列直接转化成日期格式
![8df973af56ab5d786a4c58df9a764cee.png](https://img-blog.csdnimg.cn/img_convert/8df973af56ab5d786a4c58df9a764cee.png)
1.5.2将"性别"列里的1替换成男孩,0替换成女孩
![632423b80d68a11122c100f4221e9ac9.png](https://img-blog.csdnimg.cn/img_convert/632423b80d68a11122c100f4221e9ac9.png)
1.6数据排序
由于数据集内字段都是数字内容,看不出异常情况,也判断不出数值差距较多的数量情况是否异常。分组排序后没有发现异常情况。
1.7异常值处理
![d94be455e7e096ac6d3253e832c93229.png](https://img-blog.csdnimg.cn/img_convert/d94be455e7e096ac6d3253e832c93229.png)
有个销量1万的数字,可能异常,但由于数据集内字段都是数字内容,也判断不出数值差距较多的数量情况是否是正常销售活动,故暂做正确处理,数字不改动。
2.数据分析
此篇文章仅从表格看数字,下篇文章会使用可视化来分析。
2.1 计算每年每季度每月的总销售量
![9cfe060ed0626a3e1f3eeab7ea16ab23.png](https://img-blog.csdnimg.cn/img_convert/9cfe060ed0626a3e1f3eeab7ea16ab23.png)
结论:数据时间跨度是2012年7月--2015年2月,对比2013年和2014年整年度、2015年1月和2月的同比数字百分比可以看出,母婴用品的销量在快速地增长。
2.2 计算按性别区分的购买量
![de136eaef8295d991829bb7318d9ecc9.png](https://img-blog.csdnimg.cn/img_convert/de136eaef8295d991829bb7318d9ecc9.png)
结论:可以看出已知性别的信息占比太少了,以此来分析男女孩购买差异不是很准确。但就已知性别的购物信息里,可以看出女孩家庭的购买量远大于男孩家庭。
2.3 计算各一级分类不同时间销量占比
![9203b95af8cbb9f35718f8630f70c6b9.png](https://img-blog.csdnimg.cn/img_convert/9203b95af8cbb9f35718f8630f70c6b9.png)
结论:28号分类的物品销量占比最多,最畅销;但总量居第2位的50014815的物品销量增长速度最快,大于28号分类。
2.4 计算各年龄层的销量
![c35d7be7e3294f5a31e3882b9f8a5415.png](https://img-blog.csdnimg.cn/img_convert/c35d7be7e3294f5a31e3882b9f8a5415.png)
首先,根据购买日期-出生日期得到购买时的月龄、年龄,注意有出生前购买的情况,黄色单元格表示出生前购买的情况。
![1a62e00b392a6d07d7ae370fd5f4afc3.png](https://img-blog.csdnimg.cn/img_convert/1a62e00b392a6d07d7ae370fd5f4afc3.png)
且发现了一个异常数据,出生日期1984年明显不是孩子年龄,此值做删除处理。
![7f11eed2ac0832fa0a96294fdaaf7014.png](https://img-blog.csdnimg.cn/img_convert/7f11eed2ac0832fa0a96294fdaaf7014.png)
结论:孩子年龄在-1岁(宝妈怀孕时)和3岁之间的销售量最高,超过80%。
2.5 购买的数量的描述统计分析
![01f02e419507ded02c4f1a477ca0a960.png](https://img-blog.csdnimg.cn/img_convert/01f02e419507ded02c4f1a477ca0a960.png)