交叉分组表是汇总两种变量数据的方法, 在很多场景可以用到, 本文会介绍如何使用pandas将包含两个变量的数据集处理成交叉分组表.
环境
- pandas
- python 2.7
原理
用坐标轴来进行比喻, 其中一个变量作为x轴, 另一个作为y轴, 如果定位到数据则累加一, 将所有数据遍历一遍, 最后的坐标轴就是一张交叉分组表(使用坐标轴展示的数据一般是连续的, 交叉分组表的数据是离散的).
具体实现
示例数据:
quality price
0 bad 18
1 bad 17
2 great 52
3 good 28
4 excellent 88
5 great 63
6 bad 8
7 good 22
8 good 68
9 excellent 98
10 great 53
11 bad 13
12 great 62
13 good 48
14 excellent 78
15 great 63
16 good 37
17 great 69
18 good 28
19 excellent 81
20 great 43
21 good 32
22 great 62
23 good 28
24 excellent 82
25 great 53
代码:
import pandas as pd
from pandas import DataFrame, Series
#生成数据
df = DataFrame([['bad', 18], ['bad', 17], ['great',