数据分析步骤:
提出问题-理解数据-数据清洗-构建模型-数据可视化
下面就拿2018年朝阳医院销售数据按上述步骤进行分析。
1.提出问题
根据拿到的销售数据字段信息,我们对以下三个业务指标进行分析 。
(1)月均消费次数
(2)月均消费金额
(3)客单价
2.理解数据
导入销售数据包。
#导入销售数据文件
import pandas as pd
salesDF = pd.read_excel(r"D:\qixiao\朝阳医院2018年销售数据.xlsx", filename="ALL")
print("导入成功")
通过head()输出几行预览数据,并查看下数据量(行与列)及数据类型等基础信息。
#预览数据
print(salesDF.head())
print(salesDF.shape)
print(salesDF.dtypes)
3.数据清洗
在清洗此案例的数据前,我们先了解一下数据清洗的基本步骤。
1)选取子集
每个分析问题(指标)涉及的数据