pandas 把某一列中字符串变数值_Python分析某医院销售数据

学习目标 通过实际案例分析掌握Numpy和Pandas的数据分析语句

本文以某医院的销售数据为例按照以下步骤进行分析:

42df7908c2109bf5a346f31d747c36dd.png

一、提出问题

1.月均消费次数

2.月均消费金额

3.客单价

二、理解数据

导入Excel数据

import 

7ee1850dca70a41a92900e955e92ec90.png

8f946b18722294d9fb877ec6567b88a7.png

指定一列查看数据类型:

# 查看购药时间一列的数据类型
salesDf['购药时间'].dtype

e5a35ab5b4141322bce285fc40b698f4.png

Excel原文件:

5894a148a14de857f051ecb5b4df16e8.png

三、数据清洗

数据清洗一般步骤:

ed26f61e46c04ace71cd3b691f648700.png

(1)选择子集:

本数据不用选择子集

# 若需要选择子集,可使用切片功能选择子集
subsetsalesDf = salesDf.loc[0:4,'购药时间':'销售数量']

9e5c25c0a71ee17f4522c061c4af5936.png

(2)列名重命名

# 字典:旧列名和新列名对应关系
colNameDict = {'购药时间':'销售时间'}
salesDf.rename(columns = colNameDict,inplace=True)
salesDf.head()

59a703e0ea7873933ba05105a90a46d0.png

注:inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,默认的inplace是

False,inplace=True,数据框本身会改动。

(3)缺失数据处理

Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。

# 删除列(销售时间,社保卡号)中为空的行
# how = 'any' 在给定的任何一列中有缺失值就删除
salesDf = salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
print('删除缺失值后大小',salesDf.shape)

5bffdf77e05d6a23b884c3a3f16c2191.png

使用fillna函数把空值用0填充

salesDf 

(4)数据类型转换

字符串转换为数值(浮点数)

960fee9d4c960c98966f10dcf5ba0ebd.png

日期处理--字符串转换为日期类型

e2008a05eba8a51a94d175fb7765f7b3.png

因为销售时间一列只需要日期就可以,所以提取日期,并将其转换为日期类型

注:定义函数:分割销售日期,获取销售日期

输入:timeColSer 销售时间这一列,是个Series数据类型

输出:分割后的时间,返回也是个Series数据类型

1d993f8a349a287e491e1c630323cac0.png

b46eb513467215c5521f9c4c1596db36.png

字符串转换日期:

3cc8aa97c4aab14f0df04efdf792a6ea.png

注:format 是原始数据中日期的格式

errors='coerce' 如果原始数据不符合日期的格式,转换后的值为NaN

再删除销售时间和社保卡号两列的空值行

95bbc8bbe69a827e2cad8cd5e04eb6a7.png

(5)排序

按销售时间进行升序排列

9c418b48780a980a762ffe3d958ad1f8.png

重命名行名(index)

使用reset_index重命名行名,drop=True丢弃原来的索引,重新从0设置新的索引

8b38d16f768e1666e154fe7f3224f8b3.png

(6)异常值处理

# 查看每一列的描述统计信息

59131e7bdd91c6464615712b6d31220d.png

因为销售数量、应收金额等不可能出现负数,删除异常值

删除异常值:通过条件判断筛选出数据

3c29a18b3f3d375bff9452b8bc80cf36.png

四、构建模型

业务指标1:月均消费次数 = 总消费次数/月份数

(同一天内,同一个人发生的所有消费算作一次消费)

计算总消费次数:删除重复数据

# Step1:删除重复数据
kpi1_Df = salesDf.drop_duplicates(subset = ['销售时间','社保卡号'])
# 有多少行
totalI = kpi1_Df.shape[0]
print('总消费次数:',totalI)

887036596fe1ce8789f517b338c19450.png

计算月份数:

# Step1:排序
# 按销售时间升序排序
kpi1_Df = kpi1_Df.sort_values(by='销售时间',ascending=True)
# 重命名行名
kpi1_Df=kpi1_Df.reset_index(drop=True)
# Step2:获取时间范围
# 获取最小时间值
startTime = kpi1_Df.loc[0,'销售时间']
# 获取最大时间值
endTime = kpi1_Df.loc[totalI - 1,'销售时间']
# Step3:计算月份数
# 天数
daysI = (endTime-startTime).days
# 月份数:运算符 “//” 表示取整除
# 返回商的整数部分,例如9//2 输出结果是 4
monthsI = daysI // 30
print('月份数',monthsI)

f72ac6d52534f44f4d59196d277da584.png

月均消费次数:

ed884de1646d1683487c9069297caee8.png

业务指标2:月均消费金额 = 总消费金额 / 月份数

# 总消费金额
totalMoney = salesDf.loc[:,'实收金额'].sum()
# 月均消费金额
monthMoney = totalMoney / monthsI
print('业务指标2:月均消费金额',monthMoney)

bf8734ade278eb000cd3f0fada536518.png

业务指标3:客单价 = 总消费金额 / 总消费次数

pct = totalMoney / totalI
print('客单价:',pct)

543b515ec43ebb8afa20d52fc29eeb05.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值