数据分析5步曲
excel数据清洗7步曲
在明确要解决什么问题、理解了数据集字段含义后,往往就到了数据清洗的部分,具体步骤如下图。
实操练习:
数据集
数据来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
表内容和字段定义如下:
1.数据清洗
1.1选择子集
由于这份电商数据字段较少,我先将表一和表二根据user_id利用函数vlookup连接成一张表,并隐藏porperty列。
H2单元格的公式为 =VLOOKUP($A3,'[D-表2婴儿信息.xls]表2婴儿信息'!$A:$C,2,FALSE)
I3单元格的公式为 =VLOOKUP($A3,'[D-表2婴儿信息.xls]表2婴儿信息'!$A:$C,3,FALSE)
1.2列名重命名
为了方便理解,我将列名改为中文名。
1.3删除重复值
根据电商客户的购买行为可知,一个用户可以有多条购买记录,而表里没有唯一的标识。我将"用户ID"、"物品ID"、“购买数量”、"购买时间"合并成一个新的字段"唯一性",加一列辅助列用函数来判断"唯一性"是否有重复(利用工具栏的条件格式里的突出重复项;或者增加一列辅助列,使用函数countif来计算,若个数是1,说明不重复,反之重复)
结果辅助列都是1,也就是此表没有重复值。
1.4缺失值处理
数据透视表后取各字段的计数项,看出"商品属性"有空值,恰巧我们这次分析还不上商品属性,所以先做忽略处理。
1.5一致化处理
1.5.1将"购买时间"和"出生日期"利用分列直接转化成日期格式
1.5.2将"性别"列里的1替换成男孩,0替换成女孩
1.6数据排序
由于数据集内字段都是数字内容,看不出异常情况,也判断不出数值差距较多的数量情况是否异常。分组排序后没有发现异常情况。
1.7异常值处理
有个销量1万的数字,可能异常,但由于数据集内字段都是数字内容,也判断不出数值差距较多的数量情况是否是正常销售活动,故暂做正确处理,数字不改动。
2.数据分析
此篇文章仅从表格看数字,下篇文章会使用可视化来分析。
2.1 计算每年每季度每月的总销售量
结论:数据时间跨度是2012年7月--2015年2月,对比2013年和2014年整年度、2015年1月和2月的同比数字百分比可以看出,母婴用品的销量在快速地增长。
2.2 计算按性别区分的购买量
结论:可以看出已知性别的信息占比太少了,以此来分析男女孩购买差异不是很准确。但就已知性别的购物信息里,可以看出女孩家庭的购买量远大于男孩家庭。
2.3 计算各一级分类不同时间销量占比
结论:28号分类的物品销量占比最多,最畅销;但总量居第2位的50014815的物品销量增长速度最快,大于28号分类。
2.4 计算各年龄层的销量
首先,根据购买日期-出生日期得到购买时的月龄、年龄,注意有出生前购买的情况,黄色单元格表示出生前购买的情况。
且发现了一个异常数据,出生日期1984年明显不是孩子年龄,此值做删除处理。
结论:孩子年龄在-1岁(宝妈怀孕时)和3岁之间的销售量最高,超过80%。
2.5 购买的数量的描述统计分析