一行代码制作数据分析交叉表，太便捷了

JavaShark

于 2022-07-14 14:33:02 发布

阅读量409

点赞数

分类专栏： JAVA 计算机程序员文章标签： java 后端数据分析开发语言

本文链接：https://blog.csdn.net/JavaShark/article/details/125783837

版权

本文介绍如何使用Python进行数据分析，特别是通过自定义函数轻松创建交叉表。示例包括基本操作、进阶技巧，如改变行和列名称、添加多层次索引、归一化、设置小数位数，以及针对不同条件的统计聚合，如计算平均值。

摘要由CSDN通过智能技术生成

那我们按照惯例，首先导入模块并且来读取所要使用到的数据集，引用的依然是之前制作数据透视表的数据集

import pandas as pd
def load_data():
   return pd.read_csv('coffee_sales.csv', parse_dates=['order_date'])

那这里小编是通过自定义一个函数，然后通过调用该函数来读取数据，在实际工作当中每个人都可以根据自己的喜好来操作：

df = load_data()
df.head()

output

交叉表是用于统计分组频率的特殊透视表。简单来说，就是将两个或者多个列中不重复的元素组成一个新的DataFrame，新数据的行和列交叉的部分值为其组合在原数据中的数量，我们先来看一个简单的例子，代码如下：

pd.crosstab(index = df['region'], columns = df['product_category'])

output

在行方向上代表的是不同的地区，而在列方向上代表的则是不同的咖啡种类，出来的结果表示的是不同地区不同咖啡种类的汇总数据，

df[(df["region"] == "Central")&(df["product_category"] == "Tea")].shape[0]

output

例如我们筛选出地区是中部地区并且品种是茶饮的数据，出来的结果总共有336条数据，和交叉表中的结果一致。

我们可以对列名以及行索引更换名字，通过调用rownames参数以及colnames参数，代码如下࿱

关注

专栏目录