绘制频率分布直方图
代码清单3.3的任务是根据“捞起生鱼片”的销售情况绘制频率分布直方图,其基本步骤如下:
- 求极差
- 分组
- 决定分点
- 绘制频率分布直方表
- 绘制频率分布直方图
根据1,2,3步骤可确定组距为500,组数为8,原书提供的程序如下:
# 代码3-3 捞起生鱼片的季度销售情况
import pandas as pd
import numpy as np
catering_sale = '../data/catering_fish_congee.xls' # 餐饮数据
data = pd.read_excel(catering_sale,names=['date','sale']) # 读取数据,指定“日期”列为索引
bins = [0,500,1000,1500,2000,2500,3000,3500,4000]
labels = ['[0,500)','[500,1000)','[1000,1500)','[1500,2000)',
'[2000,2500)','[2500,3000)','[3000,3500)','[3500,4000)']
data['sale分层'] = pd.cut(data.sale, bins, labels=labels)
aggResult = data.groupby(by=['sale分层'])['sale'].agg({'sale': np.size})
pAggResult = round(aggResult/aggResult.sum(), 2, ) * 100
import matplotlib.pyplot as plt
plt.figure(figsize=(10,6)) # 设置图框大小尺寸
pAggResult['sale'].plot(kind='bar',width=0.8,fontsize=10) # 绘制频率直方图
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.title('季度销售额频率分布直方图',fontsize=20)
plt.show()
问题分析
对该程序直接运行之后,则会出现报错
SpecificationError: nested renamer is not supported
stack overflow
上给出的原因是:在新的pandas版本中,建议使用Aggregation来替代已弃用的“ dict-of-dicts”方法,以命名特定于列的聚合的输出。
pandas版本迭代说明
程序修改
事实上问题语句不必写的如此复杂,问题语句的任务是将在一个组段的数量统计出来,可以将语句第12行修改为
aggResult = data.groupby('sale分层').agg({'sale':'count'})
结果输出频率分布直方图