交叉报表crosstab隐藏列名显示_pd.pivot_table与pd.crosstab

最新推荐文章于 2024-09-11 10:34:36 发布

weixin_39836860

最新推荐文章于 2024-09-11 10:34:36 发布

阅读量274

点赞数

文章标签：交叉报表crosstab隐藏列名显示

本文链接：https://blog.csdn.net/weixin_39836860/article/details/111358873

版权

本文介绍了如何使用pandas的pivot_table和crosstab函数进行数据透视和交叉表分析，详细解析了各个参数的含义，并通过实例展示了如何统计不同条件下的数据聚合结果。同时，对比了两者之间的区别，指出透视表作为groupby的高级功能，更适合复杂的数据聚合，而交叉表则适用于快速生成频率表。

摘要由CSDN通过智能技术生成

在数据分析中，常常需要用到数据透视表和交叉表，下面介pandas.DataFrame.pivot_table数据透视表和pandas.DataFrame.crosstab交叉表的用法和区别。

一、数据透视表

数据透视表用来做数据透视，可以通过一个或多个键分组聚合DataFrame中的数据，通过aggfunc参数决定聚合类型，是groupby的高级功能。

pd.pivot_table参数如下：

pd.pivot_table（data, values = None，index = None，columns = None，aggfunc ='mean'，fill_value = None，margin = False，dropna = True，margins_name ='All' ）

data：DataFrame对象

values：要聚合的列或列的列表

index：数据透视表的index，从原数据的列中筛选

columns：数据透视表的columns，从原数据的列中筛选

aggfunc：用于聚合的函数，默认为numpy.mean，支持numpy计算方法

fill_value: 用于替换缺失值的值

margin: 添加所有行/列

dropna: 不包括条目为 NaN的列，默认为True

margin_name: 当margin为True时，将包含总计的行/列的名称

import pandas as pd
date = ['2020-4-1','2020-4-2','2020-4-3']*3
rng = pd.to_datetime(date)
df = pd.DataFrame({'date':rng,
                   'key':list('abcdabcda'),
                  'values':np.random.rand(9)*10})
print(df)

1.以data做数据透视，统计不同key下value的和：

a=pd.pivot_table(df, values = 'values', index = 'date', 
               columns = 'key', aggfunc=np.sum,fill_value='缺失值')
print(a)

2,这里就分别以date、key共同做数据透视，值为values：统计不同（date，key）情况下values的数量

b=pd.pivot_table(df, values = 'values', index = ['date','key'], aggfunc=len)
print(b)

二、交叉表

默认情况下，crosstab是用来计算因子的频率表。

pd.crosstab()参数：

pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)

index:：要在行中分组的值

columns：要在列中分组的值

values：根据因子聚合的值数组，需指定aggfunc

aggfunc：如指定，还需指定value

normalize：将所有值除以值的总和进行归一化，为True时候显示百分比

1.如果crosstab只接收两个Series，它将提供一个频率表。用A的唯一值，统计B唯一值的出现次数：

df = pd.DataFrame({'A': [1, 2, 2, 2, 2],
                   'B': [3, 3, 4, 4, 4],
                   'C': [1, 1, np.nan, 1, 1]})
print(df)
print('-----')
print(pd.crosstab(df['A'],df['B']))

2.以A和B界定分组，计算出每组中第三个系列C的和

pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum)

三、区别

透视表是一种进行分组统计的函数，而交叉表是特殊的透视表，当只统计分组频率时更方便

weixin_39836860

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫