mapreducer清洗实操json格式转化日期_数据清洗7步曲

4d9e731ca429c9bdf38e1dfdfd261baa.png

数据分析5步曲

247c5b9dea949ea6a99b5fd1dbe5bbc6.png

excel数据清洗7步曲

在明确要解决什么问题、理解了数据集字段含义后,往往就到了数据清洗的部分,具体步骤如下图。

0a911ff27f8e8ed3f36430722d7413fe.png

实操练习:

数据集

数据来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

表内容和字段定义如下:

7e152cc2ff4015d8437a32332de26b49.png
表一 购买商品的字段含义

8b7917a43d4250647f5c79fe8c9bb160.png
表二 婴儿信息的字段含义

1.数据清洗

1.1选择子集

由于这份电商数据字段较少,我先将表一和表二根据user_id利用函数vlookup连接成一张表,并隐藏porperty列。

0396f3d6ce8c64312f8411455e5c66c0.png

H2单元格的公式为 =VLOOKUP($A3,'[D-表2婴儿信息.xls]表2婴儿信息'!$A:$C,2,FALSE)

I3单元格的公式为 =VLOOKUP($A3,'[D-表2婴儿信息.xls]表2婴儿信息'!$A:$C,3,FALSE)

1.2列名重命名

为了方便理解,我将列名改为中文名。

1.3删除重复值

根据电商客户的购买行为可知,一个用户可以有多条购买记录,而表里没有唯一的标识。我将"用户ID"、"物品ID"、“购买数量”、"购买时间"合并成一个新的字段"唯一性",加一列辅助列用函数来判断"唯一性"是否有重复(利用工具栏的条件格式里的突出重复项;或者增加一列辅助列,使用函数countif来计算,若个数是1,说明不重复,反之重复)

5529ab3981b18e7780f95269d19d7bb0.png

结果辅助列都是1,也就是此表没有重复值。

1.4缺失值处理

数据透视表后取各字段的计数项,看出"商品属性"有空值,恰巧我们这次分析还不上商品属性,所以先做忽略处理。

98506e3ff40134817de9c22813ad41a3.png

1.5一致化处理

1.5.1将"购买时间"和"出生日期"利用分列直接转化成日期格式

8df973af56ab5d786a4c58df9a764cee.png

1.5.2将"性别"列里的1替换成男孩,0替换成女孩

632423b80d68a11122c100f4221e9ac9.png

1.6数据排序

由于数据集内字段都是数字内容,看不出异常情况,也判断不出数值差距较多的数量情况是否异常。分组排序后没有发现异常情况。

1.7异常值处理

d94be455e7e096ac6d3253e832c93229.png

有个销量1万的数字,可能异常,但由于数据集内字段都是数字内容,也判断不出数值差距较多的数量情况是否是正常销售活动,故暂做正确处理,数字不改动。

2.数据分析

此篇文章仅从表格看数字,下篇文章会使用可视化来分析。

2.1 计算每年每季度每月的总销售量

9cfe060ed0626a3e1f3eeab7ea16ab23.png

结论:数据时间跨度是2012年7月--2015年2月,对比2013年和2014年整年度、2015年1月和2月的同比数字百分比可以看出,母婴用品的销量在快速地增长。

2.2 计算按性别区分的购买量

de136eaef8295d991829bb7318d9ecc9.png

结论:可以看出已知性别的信息占比太少了,以此来分析男女孩购买差异不是很准确。但就已知性别的购物信息里,可以看出女孩家庭的购买量远大于男孩家庭。

2.3 计算各一级分类不同时间销量占比

9203b95af8cbb9f35718f8630f70c6b9.png

结论:28号分类的物品销量占比最多,最畅销;但总量居第2位的50014815的物品销量增长速度最快,大于28号分类。

2.4 计算各年龄层的销量

c35d7be7e3294f5a31e3882b9f8a5415.png

首先,根据购买日期-出生日期得到购买时的月龄、年龄,注意有出生前购买的情况,黄色单元格表示出生前购买的情况。

1a62e00b392a6d07d7ae370fd5f4afc3.png

且发现了一个异常数据,出生日期1984年明显不是孩子年龄,此值做删除处理。

7f11eed2ac0832fa0a96294fdaaf7014.png

结论:孩子年龄在-1岁(宝妈怀孕时)和3岁之间的销售量最高,超过80%。

2.5 购买的数量的描述统计分析

01f02e419507ded02c4f1a477ca0a960.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值