模块导入和数据读取
那我们按照惯例,首先导入模块并且来读取所要使用到的数据集,引用的依然是之前制作数据透视表的数据集
import pandas as pd def load_data(): return pd.read_csv('coffee_sales.csv', parse_dates=['order_date'])
那这里小编是通过自定义一个函数,然后通过调用该函数来读取数据,在实际工作当中每个人都可以根据自己的喜好来操作:
df = load_data() df.head()
output
牛刀小试
交叉表是用于统计分组频率的特殊透视表。简单来说,就是将两个或者多个列中不重复的元素组成一个新的DataFrame,新数据的行和列交叉的部分值为其组合在原数据中的数量,我们先来看一个简单的例子,代码如下:
pd.crosstab(index = df['region'], columns = df['product_category'])
output
在行方向上代表的是不同的地区,而在列方向上代表的则是不同的咖啡种类,出来的结果表示的是不同地区不同咖啡种类的汇总数据,
df[(df["region"] == "Central")&(df["product_category"] == "Tea")].shape[0]
output
例如我们筛选出地区是中部地区并且品种是茶饮的数据,出来的结果总共有336条数据,和交叉表中的结果一致。
我们可以对列名以及行索引更换名字,通过调用rownames参数以及colnames参数,代码如下