一、理论篇
数据分析的基本过程可以分为以下五个阶段:
1、提出问题
数据分析的目标是来解决工作和生活中的问题。比如店铺选址、投资项目是否启动、交通线路规划决策、药店每个月销售金额等。明确需要研究的问题是分析的第一步。
2、获取数据
根据研究的问题采集数据,从EXCEL或数据库中导入数据,甚至是利用爬虫从网上爬取数据。
3、数据清洗
数据清晰一般遵循以下六个步骤:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排列、异常值处理。只要将数据清洗完后方可进行数据分析。
4、构建模型
对清洗后数据进行建模分析。数据分析的方法一般来讲包括三类:维度分析方法、统计学方法、机器学习的一些算法。
5、数据可视化并撰写报告
利用可视化技术,可以更简单直接的表达数据的含义,撰写写出高质量的报告。
二、案例实践
1、提出问题
从销售数据中计算出下列业务指标,包括月均消费次数、月均消费金额、客单价、消费趋势。
2、获取数据
从EXCEL文件中将数据读入PYTHON中,通过head()指令查看数据集情况,共有购药时间、社保卡号、商品编号、商品名称、销售数量、应收金额、实收金额七个字段,6578行记录。读入的数据类型都为字符串类型。
3、数据清洗
选择子集
选择子集其实也可以理解为拷贝一份数据文件,其中只筛选出需要的数据字段。
列名重命名
有时候有些字段名称需要重新自定义,可以采用rename函数
缺失数据 处理
缺失数据的处理,首先是要发现缺失数据,再来就是删除含有缺失数据的记录或者利用算法去补全缺失数据。下面为求方便,缺失数据处理主要是找到含有缺失数据的记录并删除。
数据类型转换
将导入的字符串数据转为数值型数据,同时将销售时间的数据格式由’日期+周期‘转为只有’日期‘的数据格式,并将原本为字符串格式的销售时间改为日期型格式。
数据排列
需要按销售时间进行排序,同时将数据框的索引值重新定义。
异常值处理
由于数据框的数据存在负数,与实际情况明显不符。
4、构建模型
指标一:月均消费次数=总消费次数/月分数,由于同一天同一个人发生的多笔消费算作一笔,需要去重数据。具体如下:
从上面可知总消费次数为5342笔
在计算出总消费次数后,就可以计算月份数和天数了。具体如下
所以,月均消费次数=5342/6=890次
指标二:月均消费金额=总消费金额/月份数
指标三:客单价=总消费金额/总消费次数