已知我国苹果主要产地为山东烟台、陕西洛川、新疆阿克苏、甘肃天水、山西临猗。现在假设某岗平台上苹果店铺为356家,平均销量为x吨。构建数据集如下:
shop_id = np.arange(356)
product_ = np.random.choice(["山东烟台", "陕西洛川", "新疆阿克苏", "甘肃天水", "山西临猗"], 356)
quantity = np.random.choice(np.arange(1, 10), 356)
苹果 = pd.DataFrame({"店铺id": shop_id, "产地": product_, "销量": quantity})
苹果.head()
店铺id | 产地 | 销量 | |
---|---|---|---|
0 | 0 | 甘肃天水 | 6 |
1 | 1 | 陕西洛川 | 7 |
2 | 2 | 甘肃天水 | 2 |
3 | 3 | 新疆阿克苏 | 3 |
4 | 4 |
山东烟台 | 5 |
根据groupby函数对产地进行分组
groups_var = 苹果.loc[:, ["产地", "销量"]].groupby(["产地