pandas汇总和描述性统计

本文介绍pandas中汇总和描述性统计中的基本内容,仅供参考。

目录

1描述和汇总统计

1.1sum方法

1.2idxmin和idxmax方法

1.3describe方法

1.4描述和汇总统计的常用方法

2相关系数和协方差

3唯一值、值计数以及成员资格

3.1唯一值

3.2值计数

3.3成员资格

1描述和汇总统计

1.1sum方法

用DataFrame的sum方法将会返回一个含有列小计的Series:

  • NA值会自动被排除,除非整个切片(这里指的是行或列)都是N

函数格式:

df.sum( axis=None, skipna=None, level=None, numeric_only=None, min_count=0, **kwargs, )

参数说明:

axis:约简的轴。DataFrame的行用0,列用1

skipna:排除缺失值,默认值为True

level:如果轴是层次化索引的(即Multiindex),则根据level分组约简

案例:

from pandas import Series, DataFrame 
import pandas as pd
import numpy as np


df = DataFrame([[1.4, np.nan], [7.1, -4.5],
    [np.nan, np.nan], [0.75,-1.3]],
    index=['a','b','c','d'],
    columns=[ 'one', 'two'])


df.sum()


#传入axis=1将会按行进行求和运算:
df.sum(axis=1)


df.mean(axis=1, skipna=False)

 

1.2idxmin和idxmax方法

idxmin和idxmax返回的是间接统计(达到最小值或最大值的索引)

案例:

df.idxmax()


df.cumsum()    # 累计型的计算

 

1.3describe方法

用于一次性产生多个汇总统计

案例:

df1 = pd.DataFrame({'key':list('abcdfeg'),
'data1':range(7)})


df1['data1'].describe()

对于非数值型数据,describe会产生另外一种汇总统计

案例:

obj = Series(['a','a','b','c'] * 4)


obj.describe()


obj.describe()['count']

 

1.4描述和汇总统计的常用方法

2相关系数和协方差

Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数

 

 与此类似,cov用于计算协方差。

DataFrame的corr和cov方法将以DataFrame的形式返回完整的相关系数或协方差矩阵:

利用DataFrame的corrwith方法,可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series (针对各列进行计算):

3唯一值、值计数以及成员资格

3.1唯一值

函数是unique,它可以得到Series中的唯一值数组:

 返回的唯一值是未排序的,如果需要的话,可以对结果再次进行排序

3.2值计数

value_counts用于计算一个Series中各值出现的频率:

结果Series是按值频率降序排列的(值作为行索引)。

value_counts还是一个顶级pandas方法,可用于任何数组或序列:

 

3.3成员资格

isin,它用于判断矢量化集合的成员资格,可用于选取 Series中或DataFrame列中数据的子集:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

西西弗斯推石头

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值