类的应用python平均分_使用python进行数据分析

本文深入探讨了Python中Numpy和Pandas库在数据分析中的应用,包括一维和二维数据的处理。重点讲解了Numpy的一维数组与列表的区别,如统计功能、向量化运算和数据类型的限制;Pandas的Series结构及其索引功能,以及如何进行统计计算。同时,介绍了二维数据分析,如Numpy的数轴参数和Pandas数据框的特性。最后,以销售数据分析为例,阐述了数据清洗和构建业务指标的步骤。
摘要由CSDN通过智能技术生成

一、一维数据分析

Numpy和Pandas都有表示一维数据的特殊数据结构

pandas中一维数据结构叫Series

Numpy中一维数据结构叫数组Array

(一)Numpy

1、一维数组定义与查询

切片访问

数据类型

2、Numpy一维数组与列表的区别

(1)统计功能

(2)向量化运算

(3)Numpy数组中的每个元素都必须是相同数据类型,而列表元素可以是不同数据类型

(二)Pandas一维数组结构

Series与Numpy最大的区别是有索引,定义时可以使用Index来指定索引

1、定义

2、获取描述统计信息

3、获取值的两种方法

(1)iloc属性用于根据位置获取值

(2)loc用于根据索引获取值

4、向量相加

处理空值的方法

二、二维数据分析

Numpy中用Array数组

Pandas中用DataFrame

(一)Numpy

1、Numpy数据结构

2、Numpy数轴参数

(1)数轴参数axis,指定参数值可以按某一行或某一列来计算

(2)axis=1是按行进行计算

axis=0是按列进行计算

(二)Pandas

Pandas二维数组相较于Numpy二维数组有两个优点

第一,数据框每一列可以是不同数据类型,方便表示Excel中的内容

第二,有索引功能,二维表格每一行每一列都有一个索引值

1、有序数据框

2、平均值计算

计算的是每列的平均值

3、如何查询数据框里的数据

(1)iloc用于根据位置查询

(2)loc用于根据索引查询值

(3)

4、通过条件判断筛选出符合要求的数据

(1)构建查询条件

(2)应用查询条件

5、数据框可以查看数据集描述统计信息

三、销售数据分析

分析的步骤:提出问题,理解数据(采集数据,导入数据,查看数据集的信息),数据清洗,构建模型,数据可视化

1、提出问题

数据:朝阳医院销售数据.xlsx

日均消费次数,月均消费金额,客单价,消费趋势

2、理解数据

3、数据清洗

步骤:选择子集,列名重命名,缺失值处理,数据类型转换,数据排序,异常值处理

(1)选择子集

本案例不需要选择子集

选择子集的方法为

(2)列名重命名

将购药时间改为销售时间

(3)缺失值处理

社保卡号与销售时间不能为空,用删除的办法去掉空值

(4)数据类型转换

将字符串类型转换为数字类型

日期处理

(5)数据排序

每一列的描述统计分析

(6)异常值处理

4、构建模型

(1)业务指标:月均消费次数=总消费次数/月份数

总消费次数:同一天内,同一人发生的所有消费算作一次消费

在计算总消费次数时需要根据‘销售时间’与‘社保卡号’判断出哪些数据是重复的

就是两个都相同的数据里去掉重复数据,只保留一条数据

(2)业务指标2:月均消费金额=总金额/月份数

(3)业务指标3:客单价=总消费金额/总消费次数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值