Python科学计算库 — Pandas数学统计方法

首先导入pandas库

import numpy as np
import pandas as pd

Pandas 常用的数学统计方法如下表:

方法说明
count计算非NA值的数量
describe针对Series 或DataFrame 列计算总的统计值
min/max计算最大值/最小值
idxmin/idxmax计算能够获取到最大值/最小值的索引(整数)
argmin/argmax计算能够获取到最小值和最大值的索引值
quantile计算样本的分位数(0到1)
sum值的总和
mean值的平均数
median值的中位数
mad根据平均值计算平均绝对距离差
var样本方差
std样本标准差
cumsum样本值的累计和
cummin/cummax样本的累计最小值/累计最大值
cumprod样本值的累计积
pct_change计算百分数变化

※ 以上统计方法默认对列进行统计;如果要对每一行数据进行统计,应设置axis=1。

Example:
在这里插入图片描述

1、df.count(axis=0):默认统计每一列非NA值的个数;axis=1 表示统计每一行非NA值的个数。

2、df.describe():对每一列数据做完整的数据统计,统计值包括:count、mean、std、min、max等。注:只能对列,不能对行进行统计!

3、df.idxmin()df.idxmax(): 获取最小值,最大值对应的索引值

4、df.sum(axis=0):求和,默认对每一列求和;axis=1表示对每一行求和。

5、df.mean(axis=0):求每一列的平均值;axis=1表示求每一行的平均值。

6、df.median(axis=0)df.quantile(axis=0):求每一列数据的中位数

info = pd.read_csv("./student_info.csv")
print("统计每一列非NA值的数据个数:\n", info.count())
# print("统计每一行非NA值的数据个数:\n", info.count(axis=1))   
# axis=1 表示统计每一行
print("总统计值:\n", info.describe())
print("获取各科最高分的人对应的行索引:\n", info.idxmax())
print("获取语文最低分的人对应的行索引:", info.idxmin()['Chinese'])
print("求每一列数据的平均值:\n", info.mean())
print("求每一列数据的中位数:\n", info.median())

输出结果:
在这里插入图片描述

7、df.mad():平均绝对距离差:(绝对值(数值-平均值))的平均值,表征数据的离散程度。
在这里插入图片描述

8、df.var():方差

9、df.std():标准差

方差和标准差都是表征数据的离散程度。

10、df.cumsum():累计和,cs1=a1, cs2=cs1+a2, cs3=cs2+a3, …

11、df.cummax()df.cummin():累计最大值,累计最小值 从前向后比较,如果有更大(小)的就更新,没有就保持。

12、df.cumprod(): 累计积

13、df.pct_change():计算百分比变化,和前一个数据对比

14、相关系数和协方差:ser1.cov(ser2),反映两组数据之间的相关性和相关程度。

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值