python数据分析和展示4

最新推荐文章于 2024-04-23 11:27:30 发布

恕君

最新推荐文章于 2024-04-23 11:27:30 发布

阅读量514

点赞数

文章标签：数据分析 python 数据挖掘

本文链接：https://blog.csdn.net/qinlaiensmile/article/details/123053710

版权

项目案例

以朝阳医院2018年销售数据为例，目的是了解朝阳医院在2018年里的销售情况，通过对朝阳区医院的药品销售数据的分析，了解朝阳医院的患者的月均消费次数，月均消费金额、客单价以及消费趋势、需求量前几位的药品等。
数据分析基本过程包括：
获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析。

进行数据的文件导入

import numpy as np
from pandas import Series,DataFrame
import pandas as pd

# 导入数据
file_name = '朝阳医院2018年销售数据.xlsx'
# 使用ExcelFile()时需要传入目标excel文件所在路径及文件名称
xls = pd.ExcelFile(file_name)
# 使用parse()可以根据传入的sheet名称来提取对应的表格信息
dataDF = xls.parse('Sheet1', dtype='object')
# 输出前五行数据
dataDF.head(10)

查看数据基本信息

#查看索引
dataDF.index
#查看每一列的列表头内容
dataDF.columns
#查看每一列数据统计数目
dataDF.count()
dataDF.info()#查看对应的数据类型，可以判断数据是否需要进行类型转化。
dataDF.describe()#进行表头的一些数据的统计

数据清洗

数据清洗过程包括：选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理
（1）选择子集
在我们获取到的数据中，可能数据量非常庞大，并不是每一列都有价值都需要分析，这时候就需要从整个数据中选取合适的子集进行分析，这样能从数据中获取最大价值。在本次案例中不需要选取子集，暂时可以忽略这一步。
（2）列重命名
在数据分析过程中，有些列名和数据容易混淆或产生歧义，不利于数据分析，这时候需要把列名换成容易理解的名称，可以采用rename函数实现：

dataDF.rename(columns={'购药时间':'销售时间'}, inplace=True)#进行表头对应文字的替换
dataDF.head()
# 缺失值处理
print('删除缺失值前:', dataDF.shape)

# 使用info查看数据信息
print(dataDF.info())

dataDF = dataDF.dropna(subset=['销售时间', '社保卡号'], how='any')#删除销售时间', '社保卡号为空的对应信息
print('\n删除缺失值后',dataDF.shape)
print(dataDF.info())

数据类型转化

有些数据，我们只能对数字类型的数据进行操作，而从表格中取出数据往往不是我们需要的数据类型，就需要进行相应的数据类型转化。

dataDF['销售数量'] = dataDF['销售数量'].astype('float')
dataDF['应收金额'] = dataDF['应收金额'].astype('float')
dataDF['实收金额'] = dataDF['实收金额'].astype('float')#将原本object数据转化为float64类型
print(dataDF.dtypes)

在本案例中，在“销售时间”这一列数据中存在星期这样的数据，但在数据分析过程中不需要用到，因此要把销售时间列中日期和星期使用split函数进行分割，分割后的时间，返回的是Series数据类型：

'''
定义函数：分割销售日期，提取销售日期
输入：timeColSer 销售时间这一列，Series数据类型，例‘2018-01-01 星期五’
输出：分割后的时间，返回Series数据类型，例‘2018-01-01’
'''
def splitSaletime(timeColSer):
    timeList=[]
    
    for value in timeColSer:
        dateStr = value.split(' ')[0]#以空格进行分割，同时提取空格前的第一个数据
        timeList.append(dateStr)

    timeSer=pd.Series(timeList)
    return timeSer

timeSer = dataDF.loc[:, '销售时间']
dateSer = splitSaletime(timeSer)
dataDF.loc[:,'销售时间'] = dateSer
dataDF.head()
'''
数据类型转换:字符串转换为日期
把切割后的日期转为时间格式，方便后面的数据统计:
'''
dataDF.loc[:,'销售时间'] = pd.to_datetime(dataDF.loc[:, '销售时间'], format='%Y-%m-%d', errors='coerce')#如果数据格式出现错误，则进行为空操作，为之后删除做准备
dataDF.dtypes
dataDF.isnull().sum()#监测各行数据那些为空。

进行’销售时间’, '社保卡号’空行的删除，这两个数据进行是主键，是必须要有的东西，当咱们的数据中没有这两个数据时，咱们就要进行删去该数据。

'''
转换日期过程中不符合日期格式的数值会被转换为空值
删除含有NaT的空行
'''
dataDF = dataDF.dropna(subset=['销售时间', '社保卡号'], how='any')
datasDF = dataDF.reset_index(drop = True)
dataDF.info()

数据排序

此时时间是没有按顺序排列的，所以还是需要排序一下，排序之后索引会被打乱，所以也需要重置一下索引。
其中by:表示按哪一列进行排序，ascending=True表示升序排列，ascending=False表示降序排列

dataDF = dataDF.sort_values(by='销售时间', ascending=True)#按照销售时间进行从大到小的排列
dataDF = dataDF.reset_index(drop=True)
dataDF.head()

异常值处理

t = pd.DataFrame(np.arange(12, 0, -1).reshape(3, 4))
t.loc[ [True, True, False], [True, True, False, False] ]#指定要多少行列数据
pop = dataDF.loc[:, '销售数量'] > 0 #销售数据必须要满足的条件是大于零
dataDF = dataDF.loc[pop, :]
dataDF.describe()

构建模型及数据可视化

数据清洗完成后，需要利用数据构建模型（就是计算相应的业务指标），并用可视化的方式呈现结果。

（1）业务指标1:月均消费次数

月均消费次数 = 总消费次数 / 月份数（同一天内，同一个人所有消费算作一次消费）

kpil_Df = dataDF.drop_duplicates(subset=['销售时间','社保卡号'])
totalI = kpil_Df.shape[0]
print('总消费次数=', totalI)           #统计总消费次数

kpil_Df = kpil_Df.sort_values(by='销售时间', ascending=True)

kpil_Df = kpil_Df.reset_index(drop=True)

startTime = kpil_Df.loc[0, '销售时间']
endTime = kpil_Df.loc[totalI-1, '销售时间']

daysI = (endTime-startTime).days
mounthI = daysI//30
print('月份数=',mounthI)                #时间跨度是几个月

kpil_I = totalI//mounthI
print('业务指标1：月均消费次数=', kpil_I)#月消费次数平均操作

（2）业务指标2:月均消费金额

月均消费金额 = 总消费金额 / 月份数

totalMoneyF = dataDF.loc[:, '实收金额'].sum()#进行一个金额的累加操作
mounthMoney = totalMoneyF // mounthI
print('业务指标2：月均消费金额=', mounthMoney)#输出怎么为nan？

（3）客单价

客单价 = 总消费金额 / 总消费次数

pct = totalMoneyF / totalI
print('业务指标3：客单价=', pct)

（4）消费趋势

a. 导入python可视化相关的包
b. 分析每天的消费金额
基本是把上一节讲的东西进行一个实际实用，用表格图表进行一个数据更好的展示。

import matplotlib
print(matplotlib.matplotlib_fname())
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

# 调节图像大小,清晰度
plt.figure(figsize=(8,6), dpi=150)

# 在操作之前先复制一份数据，防止影响清洗后的数据
groupDF = dataDF

groupDF.index = groupDF['销售时间']
print(groupDF.head())
gb = groupDF.groupby(groupDF.index)
print(gb)
dayDF = gb.sum()
print(dayDF)
dayDF['实收金额']

plt.plot(dayDF['实收金额'])
plt.title('按天消费金额')
plt.xlabel('time')
plt.ylabel('实收金额')
plt.show()

c. 分析每月的消费金额

# 将销售时间聚合按月分组
gb = groupDF.groupby(groupDF.index.month)
print(gb)
monthDF = gb.sum()
print(monthDF)

plt.plot(monthDF['实收金额'])
plt.title('按月消费金额')
plt.xlabel('时间')
plt.ylabel('实收金额')
plt.show()

d. 分析药品销售情况

# 聚合统计各种药品数量
medicine = groupDF[['商品名称', '销售数量']]
bk = medicine.groupby('商品名称')[['销售数量']]
re_medicine = bk.sum()

# 对销售药品数量按降序排序
re_medicine = re_medicine.sort_values(by='销售数量', ascending=True)
re_medicine.head(10)

top_medicine = re_medicine.iloc[:10, :]
top_medicine

# 数据可视化，用条形图展示前十的药品
top_medicine.plot(kind = 'bar')
plt.title('销售前十的药品')
plt.xlabel('药品')
plt.ylabel('数量')
plt.show()

e. 每天的消费金额分布情况

# 每天消售金额 -- 散点图
plt.scatter(dataDF['销售时间'], dataDF['实收金额'])
plt.title('每天销售金额')
plt.xlabel('时间')
plt.ylabel('实收金额')
plt.show()

恕君

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python数据分析和展示4

项目案例以朝阳医院2018年销售数据为例，目的是了解朝阳医院在2018年里的销售情况，通过对朝阳区医院的药品销售数据的分析，了解朝阳医院的患者的月均消费次数，月均消费金额、客单价以及消费趋势、需求量前几位的药品等。数据分析基本过程包括：获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析。进行数据的文件导入import numpy as npfrom pandas import Series,DataFrameimport pandas as pd# 导入数据file_name =
复制链接

扫一扫