pandas入门(5)——汇总和计算描述统计

本文介绍了pandas库中用于数据汇总和描述统计的方法,包括求和、唯一值计数、成员资格检查以及相关系数和协方差的计算。通过示例展示了如何使用DataFrame的sum、describe、corr、cov等方法,强调了NA值的处理和数据对齐的重要性。此外,还讨论了unique、value_counts和isin等函数在提取数据信息和过滤数据子集中的应用。
摘要由CSDN通过智能技术生成

pandas入门(5)——汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的,如

In [1]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
   .....:                    [np.nan, np.nan], [0.75, -1.3]],
   .....:                   index=['a', 'b', 'c', 'd'],
   .....:                   columns=['one', 'two'])

In [2]: df
Out[2]: 
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

调用DataFrame的sum方法将会返回一个含有列的和的Series

In [3]: df.sum()
Out[3]: 
one    9.25
two   -5.80

传入axis='columns’或axis=1将会按行进行求和运算,如

In [4]: df.sum(axis=1)
Out[4]:
a    1.40
b    2.60
c     NaN
d   -0.55

NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:

In [5]: df.mean(axis='columns', skipna=False)
Out[5]: 
a      NaN
b    1.300
c      NaN
d   -0.275

有些方法(如idxmin和idxmax)返回的是间接统计(比如达到最小值或最大值的索引)

In [6]: df.idxmax()
Out[6]: 
one    b
two    d

另一些方法则是累计型的&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值