数据分析笼统来说,大概分为五个步骤:提出问题、理解数据、数据清洗、构建模型、数据可视化。在数据分析中,很基础又关键的一步就是数据清洗,对原始数据的处理会花掉整个分析过程的很大一部分时间,这是因为如果前期数据没有处理好,会影响后续的分析以及建模。那么当我们拿到一份数据,该如何对数据进行处理和分析呢?下面以药店销售数据为例,进行如下分析:
导入pandas、numpy包及excel原始数据:
import pandas as pd
import numpy as np
filename = r'C:\安装包\朝阳医院2018年销售数据.xlsx'
salesDf = pd.read_excel(filename, sheet_name='Sheet1', dtype = 'object')
salesDf.head()
salesDf.shape
1.提出问题
通过这些数据我要分析什么?这个可能一开始是来自于老板或者其他部门的需求,他们提出需求后,我们来进行分析,在这个案例里,我们收到的需求是分析“月均消费次数”、“月均消费金额”、“客单价”、“消费趋势”。
2.理解数据
明确了分析目的之后,对原始数据进行观察,这个数据是一个6578行、7列的数据集。列属性分别为:购药时间、社保卡号、商品编码、销售数量、应收金额、实收金额,type为object;除此之外,还要观察数据结构以及数据的一些逻辑关联,形成一个大概的分析思路后,再进行下一步数据清洗工作。
#