数据增长率怎么算_2019 年“泰迪杯”数据分析职业技能大赛A题 超市销售数据分析...

一、分析背景

近年来,随着新零售业的快速发展,消费者购买商品时有了更多的对比和选择,导致超市行业的竞争日益激烈,利润空间不断压缩。超市的经营管理产生了大量数据,对这些数据进行分析,可以提升超市的竞争力,为超市的运营及经营策略调整提供重要依据。

本文数据来自2019 年“泰迪杯”数据分析职业技能大赛,数据集下载链接如下:

2019A8669.zip - 蓝奏云

二、分析目标

  • 对销售数据进行统计分析,并作可视化展示。
  • 分析顾客的消费行为。
  • 研究促销对销售的影响。

三、分析思路

将数据清洗之后可视化,然后根据可视化的图表找出业务问题并提出解决方案。

本文是将2019 年“泰迪杯”数据分析职业技能大赛的题目用Excle实现一遍,并形成数据分析报告。

四、数据清洗

清洗之前,首先将下载的csv数据复制一份到新的xls文件中,并将该sheet命名为源数据,这份源数据后面就不做改动了。接着将原csv文件关闭,把源数据sheet再复制一份到sheet2中,并将sheet2命名为清洗数据,本次数据分析中的所有数据清洗步骤都将在清洗数据sheet中完成。

4.1选择子集

将sheet2分析中暂用不到的数据进行隐藏,这里我选择了三类编码、销售月份、商品编码以及单位这6列数据。因为有了销售日期,所以销售月份可不用,三类编码和其他两项本次分析暂用不到。

4.2列名重命名

源数据命名都是中文很好理解,所以不用重命名

4.3删除重复值

由于是超市的销售数据,重复数据说明是用户多次购买,所以不能删除重复值,跳过这一步骤。

4.4缺失值处理

首先使用Ctrl+A全选数据然后使用Excle中的快捷键Ctrl+G来定位缺失值,由于本数据集数据较多,缺失值较少,只有个别缺失值,所以将缺失值所在行删除,对数据分析结果没有影响。

4.5一致化处理

清洗数据sheet中的销售日期不是日期格式,所以要使用Excle中的分列功能将销售日期设置为YMD日期格式。

4.6异常值处理

①日期异常

这里异常值比较难找,选中刚刚处理好的销售日期列,筛选之后发现还有两行日期显示为20150229的数据,这里我设置了很久,怎么都变不成规范的日期格式,后来恍然大悟,2015年的2月没有29日,于是这里算是异常值,所以手动将20150229改为

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值