python药学应用_Python数据分析实例一:医院药品销售数据

本文通过《朝阳医院2018年销售数据.xlsx》案例,演示了Python数据分析的基本流程,包括明确问题、理解数据、数据清洗、构建模型。旨在分析销售部门的销售业绩、收益及客单价情况。涉及Pandas数据处理、缺失值处理、异常值删除、数据排序和指标计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前面已经分享过python的基础语法,以及数据分析领域最常用的两个包:Numpy和Pandas(戳下面的链接),下面将用一个实际案例:《朝阳医院2018年销售数据.xlsx》和大家分享一下数据分析的基本流程。赵小娟儿Lyric:【科学计算工具一】初识Numpy​zhuanlan.zhihu.com赵小娟儿Lyric:【科学计算工具二】初识Pandas​zhuanlan.zhihu.com

在此之前,我们先来学习一下,数据分析的基本过程~~

一、明确问题

这里有一份朝阳医院2018年高血压药物的销售数据,我们需要得到以下三个指标:

月均消费次数,总消费次数/月份数,作为销售部门的重要指标值之一。(注意:同一个人同一天的消费只能视为一次消费)

月均消费金额,总消费金额/月份数,主要作为衡量部门收益的一个指标。

客单价,也就是平均交易金额,总消费金额/总消费次数。销售部门看看是否需要提高客单价来提高收益。

总结:这次的数据分析目的是查看销售部门这段时间的销售业绩如何,部门收益如何,是否需要通过提高客单价增加收益。

二、 理解数据

1、采集数据:

2、导入数据:数据存放在excel中

#导包

import numpy as np

import pandas as pd

salesDf = pd.read_excel(r'C:\Users\Juan\Desktop\朝阳医院2018年销售数据.xlsx', dtype = 'object')

#以object的类型读入数据,是为了防止某些数据读不进来,后面再根据需要更改数据类型。

'''

查看数据基本信息

'''

#打印出前5行,以确保数据运行正常

salesDf.head()

3、查看数据的基本信息,从整体上理解数据通过info() 函数info()函数观察结果: (1)数据一共有6578个观测 (2)7个变量/特征(购药时间,社保卡号,商品编码,商品名称,销售数量,应收金额,实收金额) (3)每个特征值对应的观测值均有缺失值

三、数据清洗

1、选择子集有时候原始数据的特征值很多,只有一部分是我们需要的(比如网络上爬取下来的数据中的ip地址这个特征值对后续数据处理没有意义,舍弃),这时就需要选择数据的部分子集作为我们数据处理的对象。

本案例的所有的特征值都要使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值