Python数据分析与挖掘实战第三章笔记之数据特征分析

#3.2数据特征分析(分布分析,对比分析,统计量分析,周期性分析,贡献度分析,相关性分析 )
#分布分析:能解释数据的分布特征和分布类型。定量数据:绘制频率分布表,频率分布直方图,茎叶图。定性数据:绘制饼图,条形图。
# 对比分析:是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,适用于指标间的横纵向比较,时间序列的比较分析。
# 对比分析主要有:绝对数比较,相对数比较(结构相对数:同意总体内的部分数值与全部数值对比;比例相对数:同一总体内不同部分的数值进行对比;比较相对数:同一时期两个性质相同的指标数值进行对比;
# 强度相对数:将两个性质不同但有一定凉席的总量指标进行对比;计划完成度相对数:某一时期实际完成数与计划数的对比;动态相对数:将同一现象在不同时期的指标数值进行对比。)
# 统计量分析:用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势进行分析。
# 集中趋势度量:
# 均值:原始观察数据的平均数、加权均值、频率分布表的均值(每组的组中值乘以每组的频率)
# 中位数、众数
# 离中趋势度量:
# 极差、标准差、变异系数(CV=标准差/均值*100%)、四分位数间距(上四分位数与下四分位数之差,值越大变异程度越大,反之,越小)
# 餐饮销量数据统计量分析代码
from __future__ import print_function
import pandas as pd
catering_sale='E:/WTTfiles/自我学习/机器学习/python数据分析与挖掘实战/chapter3/demo/data/catering_sale.xls'
data=pd.read_excel(catering_sale,index_col=u'日期')
data=data[(data[u'销量']>400) & (data[u'销量']<5000)]#过滤异常数据
statistics=data.describe()#保存基本统计量
statistics.loc['range']=statistics.loc['max']-statistics.loc['min']#极差
statistics.loc['var']=statistics.loc['std']/statistics.loc['mean']#变异系数
statistics.loc['dis']=statistics.loc['75%']-statistics.loc['25%']#四分位数间距
print(statistics)
# 周期性分析:探索某个变量是否随着时间变化而呈现某种周期变化趋势。
# 贡献度分析:又称帕累托分析,原理是帕累托法则,又称20/80定律。80%的利润常常来自于20%的最畅销产品,剩下的80%的产品只产生了20%的利润。
                销量
count   195.000000
mean   2744.595385
std     424.739407
min     865.000000
25%    2460.600000
50%    2655.900000
75%    3023.200000
max    4065.200000
range  3200.200000
var       0.154755
dis     562.600000
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值