pandas 把某一列中字符串变数值_Python分析某医院销售数据

最新推荐文章于 2023-02-02 21:28:11 发布

weixin_39623082

最新推荐文章于 2023-02-02 21:28:11 发布

阅读量640

点赞数

文章标签： pandas 把某一列中字符串变数值 python df共有几行 python如何对日期填充

学习目标通过实际案例分析掌握Numpy和Pandas的数据分析语句

本文以某医院的销售数据为例按照以下步骤进行分析：

一、提出问题

1.月均消费次数

2.月均消费金额

3.客单价

二、理解数据

导入Excel数据

import

指定一列查看数据类型：

# 查看购药时间一列的数据类型
salesDf['购药时间'].dtype

Excel原文件：

三、数据清洗

数据清洗一般步骤：

（1）选择子集：

本数据不用选择子集

# 若需要选择子集，可使用切片功能选择子集
subsetsalesDf = salesDf.loc[0:4,'购药时间':'销售数量']

（2）列名重命名

# 字典：旧列名和新列名对应关系
colNameDict = {'购药时间':'销售时间'}
salesDf.rename(columns = colNameDict,inplace=True)
salesDf.head()

注：inplace=False，数据框本身不会变，而会创建一个改动后新的数据框，默认的inplace是

False，inplace=True，数据框本身会改动。

（3）缺失数据处理

Python中处理空值的方法比较灵活，可以使用 Dropna函数用来删除数据表中包含空值的数据，也可以使用fillna函数对空值进行填充。

# 删除列（销售时间，社保卡号）中为空的行
# how = 'any' 在给定的任何一列中有缺失值就删除
salesDf = salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
print('删除缺失值后大小',salesDf.shape)

使用fillna函数把空值用0填充

salesDf

（4）数据类型转换

字符串转换为数值（浮点数）

日期处理--字符串转换为日期类型

因为销售时间一列只需要日期就可以，所以提取日期，并将其转换为日期类型

注：定义函数：分割销售日期，获取销售日期

输入：timeColSer 销售时间这一列，是个Series数据类型

输出：分割后的时间，返回也是个Series数据类型

字符串转换日期：

注：format 是原始数据中日期的格式

errors='coerce' 如果原始数据不符合日期的格式，转换后的值为NaN

再删除销售时间和社保卡号两列的空值行

（5）排序

按销售时间进行升序排列

重命名行名（index）

使用reset_index重命名行名，drop=True丢弃原来的索引，重新从0设置新的索引

（6）异常值处理

# 查看每一列的描述统计信息

因为销售数量、应收金额等不可能出现负数，删除异常值

删除异常值：通过条件判断筛选出数据

四、构建模型

业务指标1：月均消费次数 = 总消费次数/月份数

（同一天内，同一个人发生的所有消费算作一次消费）

计算总消费次数：删除重复数据

# Step1:删除重复数据
kpi1_Df = salesDf.drop_duplicates(subset = ['销售时间','社保卡号'])
# 有多少行
totalI = kpi1_Df.shape[0]
print('总消费次数:',totalI)

计算月份数：

# Step1：排序
# 按销售时间升序排序
kpi1_Df = kpi1_Df.sort_values(by='销售时间',ascending=True)
# 重命名行名
kpi1_Df=kpi1_Df.reset_index(drop=True)
# Step2：获取时间范围
# 获取最小时间值
startTime = kpi1_Df.loc[0,'销售时间']
# 获取最大时间值
endTime = kpi1_Df.loc[totalI - 1,'销售时间']
# Step3：计算月份数
# 天数
daysI = (endTime-startTime).days
# 月份数：运算符 “//” 表示取整除
# 返回商的整数部分，例如9//2 输出结果是 4
monthsI = daysI // 30
print('月份数',monthsI)

月均消费次数：

业务指标2：月均消费金额 = 总消费金额 / 月份数

# 总消费金额
totalMoney = salesDf.loc[:,'实收金额'].sum()
# 月均消费金额
monthMoney = totalMoney / monthsI
print('业务指标2：月均消费金额',monthMoney)

业务指标3：客单价 = 总消费金额 / 总消费次数

pct = totalMoney / totalI
print('客单价：',pct)

weixin_39623082

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫