excel找到对应数据的列指标_python数据分析——医院销售数据实战案例

一、numpy,pandas基础知识

46218fef159dab2a1e7b4df4676ed3b1.png

cdb2f40b913c44918a8ac564ab74678f.png

27c708cf16e6d9cac54b3bdcf78278b8.png

01368a8d4285d1b68fbdafc086aeeb93.png

17781222aded65c711b718a62808a7dc.png

3824ac7bc392d757b1a1a9125564809b.png

40fc6804c66959aad3a8f070a99e96d7.png

43c25c0c4f966b490822b9f13da5d7ea.png

b34d9767975e624d505013881b06b96e.png

cefe03c6944e136cd64d3fe27395414a.png

387bf604bc0417a982bcf0dcb1ebc909.png

75615e3d02d94549bc6de824ec50e15e.png

816e0d0fb6a69fbad1576bdfe3832b3c.png

44c14e24cf171dd0636c1eb3699faf17.png

二、医院销售数据实战案例分析

数据分析步骤:

1、提出问题

2、理解数据

3、数据清洗

4、构建模型

5、数据可视化

1、提出问题

要从销售数据中获得1)月均消费次数 2)月均消费金额 3)客单价 4)消费趋势

1)月均消费次数=总消费次数/月份数

2)月均消费金额=总消费金额/月份数

3)客单价=总消费金额/消费人数

4)消费趋势,画图:折线图

2、理解数据

先导入数据

先导入数据。路径中最好不要有中文或者特殊符号,不然路径会提示错误找不到。最好将文件放到一个简单的英文路径下。使用pandas的read_excel函数读取excel文件;参数sheet_name:数据在Excel的哪个sheet里面,这里就写该sheet在Excel的名称;参数dtype=str 统一先按照字符串读入,之后再转换。

88d3b9bde29324856ef5ccedce8e888f.png

cec439c20b3ccb5fb21af26699e2636c.png

499cae68bc18432b48f2474168c4d7ac.png

3、数据清洗

数据清洗步骤:

1)选择子集

2)列名重命名

3)缺失数据处理

4)数据类型转换

5)数据排序

6)异常值处理

1)选择子集:(本案例不需要选择子集),使用切片查询

776f58efec4c3012e6d0df5667d80c0b.png

2)列名重命名:使用rename。先构建一个字典,旧列名和新列名的对应关系。inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,默认的inplace是False。inplace=True,数据框本身会改动。

9446c02edff95a9994dd8eb3ca92dfe1.png

3)缺失数据处理

python缺失值有3种:

1)Python内置的None值

2)在pandas中,将缺失值表示为NA,表示不可用not available。

3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。

后面出来数据,如果遇到错误:说float错误,那就是有缺失值,需要处理掉。

所以,缺失值有3种:None,NA,NaN

#删除列(销售时间,社保卡号)中为空的行——dropna。#how='any' 在给定的任何一列中有缺失值就删除。

a9336bcfcd73e64c458fa27c26930bca.png

4)数据类型转换

字符串转换为数值(浮点型),用.astype()

95c092e936c6594813062d35f6096c77.png

字符串转换为日期数据类型

adb5a3baece6f53c7067a5bf9c6fdd37.png

将字符串转化为日期格式

ab2d0fb511ac80df51c456d5e0ee09a4.png

5)数据排序——sort values

270109b3e94b420ea8fad3fe8f90f241.png

f42e985831d54e9af9209bc928af1aa2.png

6.异常值处理

f8dd3fe84a833e39e54842024036bce7.png

4.构建模型

业务指标1:月均消费次数=总消费次数 / 月份数

ba01d73d8cf954224c80c8da6e688531.png

45f6ec6f5fe9a2e68efbfec6e4e1fa42.png

业务指标2:月均消费金额=总消费金额/月份数

8bceee3545848754a40615560a31cdc9.png

业务指标3:客单价=总消费金额/消费人数

5cde3cb78e1f3d950fbfcf96166b63a1.png

5.结论

月均消费次数=890

月均消费金额=60802.022

客单价= 56.91

整理常用公式

理解数据常用公式:.head() .tail() .shape .dtypes .columns .info() .describe() .values_counts() --查看Series对象的唯一值和计数值

清洗数据常用公式:

(1)删除列、行:先创建一个list,把不要的列放进去,再调用.drop()方法,参数axis1时代表列,为0时代表行,参数inplace=True表示不创建新的对象,直接对原始对象进行修改。

03de48170a69bd39215c267f45c41f56.png

(2)重新命名列:用.rename()方法进行修改,先创建一个字典,把要修改的列名定义好,然后调用rename()方法。

e5f01f29f23d2e40405242df82dfddc3.png

(3)重新设置索引:数据默认的索引是从0开始的有序整数,但如果想把某一列设置为新的索引,可以用.setindex()方法实现。如果在排序的时候索引序号乱了,可以使用.reset_index重新排序。

d5d510fe4e78f4f4583f0a8956c3207c.png

(4)用字符串操作规范列:str.lower() ——小写 str.upper() ——大写 str.capitalize()——将首字母转化为大写 str.replace()——代替 str.strip()——去除字符串中的头尾空格、以及n t str.split()——分割 str.get()——选取列表中某个位置的值 str.contains()——判断是否存在某个字符,返回的是布尔值 str.find()——检测字符串中是否包含子字符串str

(5)删除重复数据:drop_duplicates()

(6)填充缺失值:fillna

(7)删除空值:drop_na

(8)排序:sort_values

(9)转换数据类型:astype()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值