一、数据分析的步骤
二、提出问题
分析药店商品销售情况
1)月均消费次数
2)月均消费金额
3)客单价
4)消费趋势
5)热销商品、滞销商品
三、理解数据
销售数据源为excel文件
字段的含义:
共有6579条销售数据
共有7个字段分别为:购买时间、社保卡号、商品编码、商品名称、销售数量、应收金额、实收金额
四、清洗数据
本次分析采用Jupyter Notebook分析,数据集为本地excel文件
(1)选择子集
本次分析的excel工作簿里面只有一个工作表
#导入数据分析包
importpandas as pd
salesDf= pd.read_excel('./朝阳医院2018年销售数据.xlsx')#head()打印前5行
#df = pd.read_excel(path,sheet_name=4,header=6)# 指定序号为4的工作簿,用第6行做为行索引
"""sheet_name,工作簿的序号从0开始 """
#header从0开始计数
print(salesDf.head())
(2)列表重命名
#字典:旧列名和新列名对应关系
colNameDict = {'购药时间':'销售时间'}'''inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,
默认的inplace是False
inplace=True,数据框本身会改动'''salesDf.rename(columns= colNameDict,inplace=True)
salesDf.head()
(3)删除重复值
print('删除重复值前大小',salesDf.shape)#删除重复销售记录
salesDf =salesDf.drop_duplicates()print('删除重复值后大小',salesDf.shape)
删除前后数据进行对比,发现本数据集没有重复值
(4)缺失值处理 info也可以查看字段的数据类型
"""整体观察"""df.info()"""如果缺失的数据很少,可以直接进行删除"""
"""如果缺失的数据量较大,