利用python进行数据分析之pandas汇总和计算描述统计、相关系数与协方差、唯一值、值计数、成员资格

本文介绍了如何使用Python的pandas库进行数据的描述性统计分析,包括计算相关系数、协方差、唯一值、值计数和成员资格。详细讲解了DataFrame的sum方法、NA值处理、约简方法、累计型统计以及相关系数和协方差的计算。同时阐述了unique函数用于获取唯一值,value_counts()用于频次统计,以及isin方法用于确定元素是否存在于集合中。
摘要由CSDN通过智能技术生成

1、描述性统计分析

(1)跟对应的NumPy相比,t他们都是基于没有缺失数据的假设而构建的。

df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],
               columns=['one','two'])
df
Out[53]: 
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

调用DataFrame的sum方法将会返回一个含有列小计的Series:

df.sum()   #默认为axis=0,传入axis=1会按行进行求和计算
Out[54]: 
one    9.25
two   -5.80
dtype: float64

(2)NA值会自动被排除,除非整个切片(这里是指行或列)都是NA,通过skipna选项可以禁用该功能:

df.mean(axis=1,skipna=False)
Out[55]: 
a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

(3)约简方法的选项

axis 约简的轴。DataFrame的行用0,列用1
skipna 排除缺失值,默认值为True
level 如果轴是层次化索引的(即MultiInde
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值