一、分析背景
近年来,随着新零售业的快速发展,消费者购买商品时有了更多的对比和选择,导致超市行业的竞争日益激烈,利润空间不断压缩。超市的经营管理产生了大量数据,对这些数据进行分析,可以提升超市的竞争力,为超市的运营及经营策略调整提供重要依据。
本文数据来自2019 年“泰迪杯”数据分析职业技能大赛,数据集下载链接如下:
2019A8669.zip - 蓝奏云
二、分析目标
- 对销售数据进行统计分析,并作可视化展示。
- 分析顾客的消费行为。
- 研究促销对销售的影响。
三、分析思路
将数据清洗之后可视化,然后根据可视化的图表找出业务问题并提出解决方案。
本文是将2019 年“泰迪杯”数据分析职业技能大赛的题目用Excle实现一遍,并形成数据分析报告。
四、数据清洗
清洗之前,首先将下载的csv数据复制一份到新的xls文件中,并将该sheet命名为源数据,这份源数据后面就不做改动了。接着将原csv文件关闭,把源数据sheet再复制一份到sheet2中,并将sheet2命名为清洗数据,本次数据分析中的所有数据清洗步骤都将在清洗数据sheet中完成。
4.1选择子集
将sheet2分析中暂用不到的数据进行隐藏,这里我选择了三类编码、销售月份、商品编码以及单位这6列数据。因为有了销售日期,所以销售月份可不用,三类编码和其他两项本次分析暂用不到。
4.2列名重命名
源数据命名都是中文很好理解,所以不用重命名
4.3删除重复值
由于是超市的销售数据,重复数据说明是用户多次购买,所以不能删除重复值,跳过这一步骤。
4.4缺失值处理
首先使用Ctrl+A全选数据然后使用Excle中的快捷键Ctrl+G来定位缺失值,由于本数据集数据较多,缺失值较少,只有个别缺失值,所以将缺失值所在行删除,对数据分析结果没有影响。
4.5一致化处理
清洗数据sheet中的销售日期不是日期格式,所以要使用Excle中的分列功能将销售日期设置为YMD日期格式。
4.6异常值处理
①日期异常
这里异常值比较难找,选中刚刚处理好的销售日期列,筛选之后发现还有两行日期显示为20150229的数据,这里我设置了很久,怎么都变不成规范的日期格式,后来恍然大悟,2015年的2月没有29日,于是这里算是异常值,所以手动将20150229改为