demo/data/catering_fish_congee
这个文件是“捞起生鱼片”的销售数据,书上的文件名写错了,注意改一下。
内容主要是这个菜从 2014/4/1 到 2014/6/30 的销售额。
其实这里没给代码,给的结果,看起来这里用 Excel 也能很好完成的。
同时给了很多分析方法。不过本文主要是代码实践,就不写了。
针对餐饮销量数据有一个统计分析代码:
#-*- coding: utf-8 -*-
#餐饮销量数据统计量分析
from __future__ import print_function
import pandas as pd
catering_sale = 'data/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据
statistics = data.describe() #保存基本统计量
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距
print(statistics)
这段代码里面需要说一下的就是 Pandas 中的 .loc 方法。
statistics.loc['dis']
这个代码的意思就是选择一列进行操作,这里就是 dis 列。
整个代码运行结果: