pandas入门（5）——汇总和计算描述统计

最新推荐文章于 2024-08-09 06:49:02 发布

Annaaphq

最新推荐文章于 2024-08-09 06:49:02 发布

阅读量645

点赞数

文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/Annaaphq/article/details/126124653

版权

本文介绍了pandas库中用于数据汇总和描述统计的方法，包括求和、唯一值计数、成员资格检查以及相关系数和协方差的计算。通过示例展示了如何使用DataFrame的sum、describe、corr、cov等方法，强调了NA值的处理和数据对齐的重要性。此外，还讨论了unique、value_counts和isin等函数在提取数据信息和过滤数据子集中的应用。

摘要由CSDN通过智能技术生成

pandas入门（5）——汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计，用于从Series中提取单个值（如sum或mean）或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比，它们都是基于没有缺失数据的假设而构建的，如

In [1]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
   .....:                    [np.nan, np.nan], [0.75, -1.3]],
   .....:                   index=['a', 'b', 'c', 'd'],
   .....:                   columns=['one', 'two'])

In [2]: df
Out[2]: 
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

调用DataFrame的sum方法将会返回一个含有列的和的Series

In [3]: df.sum()
Out[3]: 
one    9.25
two   -5.80

传入axis='columns’或axis=1将会按行进行求和运算，如

In [4]: df.sum(axis=1)
Out[4]:
a    1.40
b    2.60
c     NaN
d   -0.55

NA值会自动被排除，除非整个切片（这里指的是行或列）都是NA。通过skipna选项可以禁用该功能：

In [5]: df.mean(axis='columns', skipna=False)
Out[5]: 
a      NaN
b    1.300
c      NaN
d   -0.275

有些方法（如idxmin和idxmax）返回的是间接统计（比如达到最小值或最大值的索引）

In [6]: df.idxmax()
Out[6]: 
one    b
two    d

另一些方法则是累计型的&#x

最低0.47元/天解锁文章

Annaaphq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫