分布分析
揭示数据的分布特征和分布类型
- 定量数据:频率分析、频率分布表、直方图、茎叶图
- 定性数据:饼图、条形图
统计量分析
用统计学指标对定量数据进行描述性分析,例如均值,中位数,众数;极差,标准差,四分位数间距等。
定量数据的分布分析
下面使用SPSS进行频率分析,分析菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布图,对销售量进行分布分析。
数据集
catering_fish_congee.xls
参数设置
分析结果
分箱区间宽度设置为400,如下
Python程序
#coding: utf-8
import matplotlib.pyplot as plt
from numpy import nan as NA
import pandas as pd
# 读取数据源
xlsFilename = "catering_fish_congee.xls"
df = pd.read_excel(xlsFilename)
# 获得销售额列
dfSalesAmount = df.iloc[:,1]
########################################################
# 统计量分析
# 均值
mean_ = dfSalesAmount.mean()
# 中位数
median_ = dfSalesAmount.median()
# 众数
mode_ = dfSalesAmount.mode()
# 极差
range_ = dfSalesAmount.max() - dfSalesAmount.min()
# 标准差
std_ = dfSalesAmount.std()
# 四分位数区间
distance_ = dfSalesAmount.quantile(0.75) - dfSalesAmount.quantile(0.25)
print ("销售量均值: {0:.2f}".format(mean_))
print ("销售量中位数: {0:.2f}".format(median_))
print ("销售量众数: {}".format(mode_))
print ("销售量极差: {}".format(range_))
print ("销售量标准差: {0:.2f}".format(std_))
print ("销售量四分位数区间: {0:.2f}".format(distance_))
print (df.describe())
结果
销售量均值: 1241.33
销售量中位数: 900.00
销售量众数: 0 420
dtype: int64
销售量极差: 3915
销售量标准差: 941.32
销售量四分位数区间: 1372.50
420
count 90.000000
mean 1241.333333
std 941.317843
min 45.000000
25% 420.000000
50% 900.000000
75% 1792.500000
max 3960.000000
定性数据的分布分析
数据集
catering_dish_profit.xls
菜品ID | 菜品名 | 盈利 |
---|---|---|
17148 | A1 | 9173 |
17154 | A2 | 5729 |
109 | A3 | 4811 |
117 | A4 | 3594 |
17151 | A5 | 3195 |
14 | A6 | 3026 |
2868 | A7 | 2378 |
397 | A8 | 1970 |
88 | A9 | 1877 |
426 | A10 | 1782 |