一、明确目标
针对药店销售数据提炼关键指标,分析药店目前销售状况
二、提出问题
1.月均消费次数;
2.月均消费金额;
3.客单价;
4.药店畅销药品情况
三、分析前期准备
1.提取数据
#导入所需要的包,numpy支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库;pandas提供了大量能使我们快速便捷地处理数据的函数和方法
import numpy as np
import pandas as pd
#导入药店销售数据,看下数据基本情况
fileNameStr = "C:UsersHyacinthusDesktop朝阳医院2018年销售数据.xlsx"
salesdf=pd.read_excel(fileNameStr,sheet_name='Sheet1',dtype=str)
salesdf.head(5)
2.数据清洗
#查看数据量
salesdf.shape
(6578, 7)
#查看数据类型
salesdf.dtypes
购药时间 object
社保卡号 object
商品编码 object
商品名称 object
销售数量 object
应收金额 object
实收金额 object
dtype: object
#为了方便理解,列名更改为常用语, "inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,默认的inplace是Falsen,inplace=True,数据框本身会改动
colnamedict={'购药时间':'销售日期'}
salesdf.rename(columns=colnamedict,inplace=True)
salesdf.head(5)
销售日期 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额
0 2018-01-01 星期五 001616528 236701 强力VC银翘片 6 82.8 69
1 2018-01-02 星期六 001616528 236701 清热解毒口服液 1 28 24.64
2 2018-01-06 星期三 0012602828 236701 感康 2 16.8 15
3 2018-01-11 星期一 0010070343428 236701 三九感冒灵 1 28 28
4 2018-01-15 星期五 00101554328 236701 三九感冒灵 8 224 20