一、提出问题
从销售数据中分析出以下业务指标:
1)月均消费次数 2)月均消费金额 3)客单价 4)消费趋势
基于pandas库对“朝阳医院2018年销售数据”进行统计分析。
二、理解数据
2.1导入数据
import pandas as pd
fileNameStr='./朝阳医院2018年销售数据.xlsx'
salesDf=pd.read_excel(fileNameStr,sheet_name='Sheet1',dtype=str)
salesDf.head()
2.2查看每一列数据类型
salesDf.shape
(6578, 7)
2.3查看数据格式
salesDf.dtypes
购药时间 object
社保卡号 object
商品编码 object
商品名称 object
销售数量 object
应收金额 object
实收金额 object
dtype: object
2.4查看每一列的描述性统计
salesDf.describe()
2.5切片查询 - iloc
loc是用索引筛选
iloc是用作行号、列号筛选
salesDf.iloc[0:5,3:]
#筛选出第0到第4行,第3列到最后一列
三、数据清洗
3.1选择子集
这里需要完整的原始数据,不需要子集, 如果选择,可以切片等
3.2列名重命名
把“购药时间”改成“销售时间”,用到的函数是rename(columns = ,inplace =true/false),如果inplace是true,那么会改动现有的数据框,如果false,会新建一个改动后的数据框。
colNameDict={'购药时间':'销售时间'}
salesDf.rename(columns=colNameDict,inplace=True)
salesDf.head()