统计量分析
用统计指标对定量数据进行统计分析,通常从两个方面进行分析:集中趋势、离中趋势。
1、集中趋势(个体集中趋势地度量)通常从以下几个指标来衡量:均值、中位数、众数。
2、离中趋势(个人离开平均水平的度量)通常使用标准差、四分位间距、极差、变异系数等。
下面简单用一个餐饮销量数据来进行一下统计量分析:
#餐饮销量数据统计量分析
import pandas as pd
#获取数据
catering_sale = 'G:\data\Python\chapter3\demo\data\catering_sale.xls'
data = pd.read_excel(catering_sale,index_col=u'日期')
#过滤异常数据
data = data[(data[u'销量'] > 400) & (data[u'销量'] < 5000)]
statistics = data.describe()
#添加一下指标
statistics.loc['range'] = statistics.loc['max'] - statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%'] - statistics.loc['25%'] #四分位数间距
print(statistics)
运行结果如下:
从图中可以看到基本上将集中趋势和离中趋势的几个指标都统计出来了。
贡献度分析
贡献度分析也称为帕累托分析,它的原理是帕累图托原则,即20/80定律。同样的投入在不同的地方,产生的利润即贡献度不一样。
对于餐饮企业来说,可以利用贡献度分析来调整资金投入,将资金投入到盈利最高的前80%的菜品。
下面同样以餐饮公司盈利的数据进行贡献度分析。
#餐饮销量数据统计量分析
import pandas as pd
#获取数据
catering_sale = 'G:\data\Python\chapter3\demo\data\catering_sale.xls'
data = pd.read_excel(catering_sale,index_col=u'日期')
#过滤异常数据
data = data[(data[u'销量'] > 400) & (data[u'销量'] < 5000)]
statistics = data.describe()
#添加一下指标
statistics.loc['range'] = statistics.loc['max'] - statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%'] - statistics.loc['25%'] #四分位数间距
print(statistics)
运行结果如下:
从上图中可以看出前七个菜品只占菜品种类的70%,但是确产生了83%的盈利。更具帕累托原则应当尽量增加前七个菜品的资金投入。
相关性分析
所谓相关性分析,顾名思义即是常看两个变量之间是否具有某种关系如线性相关等。即是分析中两个变量之间的线性相关程度,通过相关系数可以看出。在二元变量的相关分析中比较常用的有Pearson相关系数和Spearman秩相关系数。其中Pearson要求变量服从正态分布,而Spearman系数则没有要求。一般来说r>0.3才能说两个变量有相关性,不然则没有。
下面通过一个菜品销售量的例子来说明。
import pandas as pd
catering_sale_all = 'G:\data\Python\chapter3\demo\data\catering_sale_all.xls'
data = pd.read_excel(catering_sale_all,index_col='日期')
data.corr() #相关系数矩阵,即给出了任意两款菜式之间的相关系数默认method=pearson
data.corr()['百合酱蒸凤爪'] #只看百合酱蒸凤爪和其他菜式之间的相关系数
# data['百合酱蒸凤爪'].corr(data['翡翠蒸香茜饺'])
运行结果如下:
可以图中可以看出,百合酱蒸凤爪这个菜品的销量和乐膳真味鸡、生炒菜心、原汁原味菜心有关。即顾客在点了其中一样的情况,很有可能点剩下几样,可以通过这个来安排菜品。
总结
此次主要简单的介绍了几种数据特征分析的方法,其实还有其他很多的分析方法,主要就是要做到具体事例具体分析,针对不同的案例采用不同的分析方法。