#3.2 数据特征分析(分布分析,对比分析,统计量分析,周期性分析,贡献度分析,相关性分析 )
# 分布分析:能解释数据的分布特征和分布类型。定量数据:绘制频率分布表,频率分布直方图,茎叶图。定性数据:绘制饼图,条形图。
# 对比分析:是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,适用于指标间的横纵向比较,时间序列的比较分析。
# 对比分析主要有:绝对数比较,相对数比较(结构相对数:同意总体内的部分数值与全部数值对比;比例相对数:同一总体内不同部分的数值进行对比;比较相对数:同一时期两个性质相同的指标数值进行对比;
# 强度相对数:将两个性质不同但有一定凉席的总量指标进行对比;计划完成度相对数:某一时期实际完成数与计划数的对比;动态相对数:将同一现象在不同时期的指标数值进行对比。)
# 统计量分析:用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势进行分析。
# 集中趋势度量:
# 均值:原始观察数据的平均数、加权均值、频率分布表的均值(每组的组中值乘以每组的频率)
# 中位数、众数
# 离中趋势度量:
# 极差、标准差、变异系数( CV= 标准差 / 均值 *100% )、四分位数间距(上四分位数与下四分位数之差,值越大变异程度越大,反之,越小)
# 餐饮销量数据统计量分析代码
from __future__ import print_function
import pandas as pd
catering_sale= 'E:/WTTfiles/ 自我学习 / 机器学习 /python 数据分析与挖掘实战 /chapter3/demo/data/catering_sale.xls'
data= pd.read_excel(catering_sale, index_col = u' 日期 ' )
data= data[(data[u' 销量 ' ]> 400 ) & (data[u' 销量 ' ]< 5000 )]# 过滤异常数据
statistics= data.describe()# 保存基本统计量
statistics.loc['range' ]= statistics.loc['max' ]- statistics.loc['min' ]# 极差
statistics.loc['var' ]= statistics.loc['std' ]/ statistics.loc['mean' ]# 变异系数
statistics.loc['dis' ]= statistics.loc['75%' ]- statistics.loc['25%' ]# 四分位数间距
print(statistics)
# 周期性分析:探索某个变量是否随着时间变化而呈现某种周期变化趋势。
# 贡献度分析:又称帕累托分析,原理是帕累托法则,又称 20/80 定律。 80% 的利润常常来自于 20% 的最畅销产品,剩下的 80% 的产品只产生了 20% 的利润。
销量
count 195.000000
mean 2744.595385
std 424.739407
min 865.000000
25% 2460.600000
50% 2655.900000
75% 3023.200000
max 4065.200000
range 3200.200000
var 0.154755
dis 562.600000