针对某医院18年销售记录,做简单的数据分析,熟悉相关语法及分析过程。
一、分析目的
以某医院18年销售数据为例,了解18年的销售情况,分析几个业务指标,例如:月均消费次数,月均消费金额、客单价以及消费趋势等,可以用于了解不同季节的病情、指导医院备货等。
二、 数据分析过程
数据分析过程基本包括:数据获取、数据清洗、模型构建、数据可视化、相关分析等
1、数据获取
根据已有的18年销售单据,提取相应的数据。(本次没有数据抓取过程)首先导入相关的python包,并获取数据集。
# coding: utf-8
import xlrd
import openpyxl
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
#读取数据集,显示前5行
filename = r'C:\Users\Administrator\Desktop\朝阳医院2018年销售数据.xlsx'
datafile = pd.ExcelFile(filename)
data = datafile.parse('Sheet1')
#查看基本信息
data.shape
data.index
data.columns
data.count
显示信息如下:
![](https://i-blog.csdnimg.cn/blog_migrate/11d008dfb3d3a626ea274efce47ca71e.png)
总共有6578行7列数据,其中购药时间、社保卡号有6576行数据,其他的有6577行数据。所以此数据集中存在缺失值,需对缺失值进行处理。
2、数据清洗
数据清洗基本过程:选择子集、列重命名、缺失值处理、数据类型转换、数据排序、异常值处理等。
为便于分析,将其中列名:购买时间,更改为销售时间,消除歧义。
#列重命名
data.rename(columns={'购药时间':'销售时间'}, inplace = True)
print(data.head())
![](https://i-blog.csdnimg.cn/blog_migrate/1559101f2770a929936c45e2e2e04001.png)
3、缺失值处理
从前面显示的信息中可以看出