pandas 判断是否等于nan_数据处理进阶pandas入门(十一)

本文介绍了pandas中的简单数值计算方法,包括count、max、min、sum、mean等,并探讨了cumsum、cumprod、unique、value_counts和isin等统计方法,详细解析了axis、skipna参数的用法。
摘要由CSDN通过智能技术生成

回顾

在数据处理进阶pandas入门(十)中,我们介绍了时间序列的重采样,其中resample()方法中的closed和label两个参数需要重点理解。今天我们看一下pandas中如何利用现成方法来进行一些简单常见的数值计算和统计。

常用的简单数值计算方法

我们使用pandas的一个主要目的就是为了进行数据的数值计算和统计。常用的简单数值计算方法有:

count():统计非NaN值的数量。

max()、min():样本最大值、最小值。

sum():样本总和。

mean():样本平均值。

quantile():样本分位数,参数q确定位置,如q=0.25就是按一定顺序排序后1/4位置上的数。

median():样本中位数,其实就是quantile()中q=0.5情况下的分位数。

std():样本标准差。

skew():样本的偏度。偏度也称为偏态、偏态系数,是统计系数分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。

kurt():样本的峰度。峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观来看,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言的统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。

pandas中上述计算方法基本用法如下:​

import pandas as pdimport numpy as npdf = pd.DataFrame({'k1':np.random.rand(5)*10, 'k2':np.random.rand(5)*10}, index=list('abcde'))print(df)print("---------------")# 统计非NaN值的数量print(df.count())print("---------------")# 统计最小值print(df.min())print("---------------")# 统计分位数,参数q确定位置print(df.quantile(q=0.25))print("---------------")# 求和print(df.sum())print("---------------")# 求平均值p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值