利用python进行数据分析之pandas汇总和计算描述统计、相关系数与协方差、唯一值、值计数、成员资格

reb0rn初代

于 2019-09-10 20:45:22 发布

阅读量607

点赞数

分类专栏：数据分析与数据挖掘

本文链接：https://blog.csdn.net/qq_34195441/article/details/100710560

版权

本文介绍了如何使用Python的pandas库进行数据的描述性统计分析，包括计算相关系数、协方差、唯一值、值计数和成员资格。详细讲解了DataFrame的sum方法、NA值处理、约简方法、累计型统计以及相关系数和协方差的计算。同时阐述了unique函数用于获取唯一值，value_counts()用于频次统计，以及isin方法用于确定元素是否存在于集合中。

摘要由CSDN通过智能技术生成

1、描述性统计分析

（1）跟对应的NumPy相比，t他们都是基于没有缺失数据的假设而构建的。

df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],
               columns=['one','two'])
df
Out[53]: 
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

调用DataFrame的sum方法将会返回一个含有列小计的Series：

df.sum()   #默认为axis=0,传入axis=1会按行进行求和计算
Out[54]: 
one    9.25
two   -5.80
dtype: float64

（2）NA值会自动被排除，除非整个切片（这里是指行或列）都是NA，通过skipna选项可以禁用该功能：

df.mean(axis=1,skipna=False)
Out[55]: 
a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

（3）约简方法的选项

axis	约简的轴。DataFrame的行用0，列用1
skipna	排除缺失值，默认值为True
level	如果轴是层次化索引的（即MultiInde

最低0.47元/天解锁文章

reb0rn初代

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用python进行数据分析之pandas汇总和计算描述统计、相关系数与协方差、唯一值、值计数、成员资格

1、描述性统计分析（1）跟对应的NumPy相比，t他们都是基于没有缺失数据的假设而构建的。df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'], columns=['one','two'])dfOut[53]: ...
复制链接

扫一扫

专栏目录