python数据分析pandas_Python数据分析之 pandas汇总和计算描述统计

最新推荐文章于 2022-10-07 23:56:26 发布

weixin_39872624

最新推荐文章于 2022-10-07 23:56:26 发布

阅读量197

点赞数

文章标签： python数据分析pandas

1. 聚合计算

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总

统计，用于从Series中提取单个值(如sum或mean)或从DataFrame的行或

列中提取一个Series。跟对应的NumPy数组方法相比，它们都是基于没有缺失数据的假设而构建的。看一个简单的DataFrame:

df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],

[np.nan, np.nan], [0.75, -1.3]],

index=['a', 'b', 'c', 'd'],

columns=['one', 'two'])

df

调用DataFrame的sum方法将会返回一个含有列的和的Series:

df.sum() #默认axis=0/'index'

传入axis='columns'或axis=1将会按行进行求和运算:

df.sum(axis='columns') #axis=1

NA值会自动被排除，除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:

print(df)

print("-----")

print(df.mean(axis='columns', skipna=False)) #axis=1

print("-----")

print(df.mean(axis='columns')) #axis=1 自动跳过na

下表列出了这些约简方法的常用选项：

有些方法(如idxmin和idxmax)返回的是间接统计(比如达到最小值或最大值的索引):

print(df)

print("-------")

df.idxmax() #axis=0

另一些方法则是累计型的:

print(df)

print("-------")

df.cumsum() #axis=0

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkdV9oYW8=,size_16,color_FFFFFF,t_70

还有一种方法，它既不是约简型也不是累计型。describe就是一个例子，它用于一次性产生多个汇总统计:

df.describe() #默认忽略空值

对于非数值型数据，describe会产生另外一种汇总统计:

obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

obj.describe()

下表列出了所有与描述统计相关的方法。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkdV9oYW8=,size_16,color_FFFFFF,t_70

2. 相关系数与协方差

有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。我们来看

几个DataFrame，它们的数据来自Yahoo!Finance的股票价格和成交量，使

用的是pandas-datareader包(可以用conda或pip安装):

pip install pandas-datareader

我使用pandas_datareader模块下载了一些股票数据:

import pandas_datareader.data as web

all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL',

'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in

all_data.items()})

volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in

all_data.items()})

print(price.head())

print(volume.head())

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkdV9oYW8=,size_16,color_FFFFFF,t_70

现在计算价格的百分数变化，时间序列的操作后续会介绍:

returns = price.pct_change()

returns.tail()

Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。与此类似，cov用于计算协方差:

print(returns['MSFT'].corr(returns['IBM']))

print(returns['MSFT'].cov(returns['IBM']))

因为MSTF是一个合理的Python属性，我们还可以用更简洁的语法选择列:

returns.MSFT.corr(returns.IBM)

另一方面，DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵:

print(returns.corr())

print("-----------")

print(returns.cov())

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkdV9oYW8=,size_16,color_FFFFFF,t_70

利用DataFrame的corrwith方法，你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series(针对各列进行计算)

returns.corrwith(returns.IBM)

无锡妇科检查医院 http://www.87554006.com/

传入一个DataFrame则会计算按列名配对的相关系数。这里，我计算百分比变化与成交量的相关系数:

print(returns.head())

print(volume.head())

returns.corrwith(volume) #按列配对

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkdV9oYW8=,size_16,color_FFFFFF,t_70

传入axis='columns'/1即可按行进行计算。无论如何，在计算相关系数之前，所有的数据项都会按标签对齐。

3. 唯一值、值计数以及成员资格

还有一类方法可以从一维Series的值中抽取信息。看下面的例子:

obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

obj

第一个函数是unique，它可以得到Series中的唯一值数组:

uniques = obj.unique()

uniques

返回的唯一值是未排序的，如果需要的话，可以对结果再次进行排序

(uniques.sort())。相似的，value_counts用于计算一个Series中各值出现的频率:

obj.value_counts()

为了便于查看，结果Series是按值频率降序排列的。value_counts还是一个顶级pandas方法，可用于任何数组或序列:

pd.value_counts(obj.values, sort=False)

isin用于判断矢量化集合的成员资格，可用于过滤Series中或DataFrame列中数据的子集:

print(obj)

print("-----------")

mask = obj.isin(['b', 'c'])

print(mask)

print("-----------")

obj[mask]

与isin类似的是Index.get_indexer方法，它可以给你一个索引数组，从可能包含重复值的数组到另一个不同值的数组:

to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])

unique_vals = pd.Series(['c', 'b', 'a'])

pd.Index(unique_vals).get_indexer(to_match)

下表给出了这几个方法的一些参考信息：

有时，你可能希望得到DataFrame中多个相关列的一张柱状图。例如:

data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],

'Qu2': [2, 3, 1, 2, 3],

'Qu3': [1, 5, 2, 4, 4]})

data

将pandas.value_counts传给该DataFrame的apply函数，就会出现:

result = data.apply(pd.value_counts).fillna(0)

result

这里，结果中的行标签是所有列的唯一值。后面的频率值是每个列中这些值的相应计数。

weixin_39872624

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据分析pandas_Python数据分析之 pandas汇总和计算描述统计

1. 聚合计算pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计，用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比，它们都是基于没有缺失数据的假设而构建的。看一个简单的DataFrame:df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[n...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。