Python数据分析与挖掘实战第三章笔记之数据特征分析

最新推荐文章于 2022-03-29 14:09:47 发布

tatumWei

最新推荐文章于 2022-03-29 14:09:47 发布

阅读量775

点赞数

分类专栏：数据分析与数据挖掘

本文链接：https://blog.csdn.net/qq_41775711/article/details/80516082

版权

数据分析与数据挖掘专栏收录该内容

15 篇文章 2 订阅

订阅专栏

#3.2数据特征分析（分布分析，对比分析，统计量分析，周期性分析，贡献度分析，相关性分析 ）
#分布分析：能解释数据的分布特征和分布类型。定量数据：绘制频率分布表，频率分布直方图，茎叶图。定性数据：绘制饼图，条形图。
# 对比分析：是指把两个相互联系的指标进行比较，从数量上展示和说明研究对象规模的大小，水平的高低，适用于指标间的横纵向比较，时间序列的比较分析。
# 对比分析主要有：绝对数比较，相对数比较（结构相对数：同意总体内的部分数值与全部数值对比；比例相对数：同一总体内不同部分的数值进行对比；比较相对数：同一时期两个性质相同的指标数值进行对比；
# 强度相对数：将两个性质不同但有一定凉席的总量指标进行对比；计划完成度相对数：某一时期实际完成数与计划数的对比；动态相对数：将同一现象在不同时期的指标数值进行对比。）
# 统计量分析：用统计指标对定量数据进行统计描述，常从集中趋势和离中趋势进行分析。
# 集中趋势度量：
# 均值：原始观察数据的平均数、加权均值、频率分布表的均值（每组的组中值乘以每组的频率）
# 中位数、众数
# 离中趋势度量：
# 极差、标准差、变异系数（CV=标准差/均值*100%）、四分位数间距（上四分位数与下四分位数之差，值越大变异程度越大，反之，越小）
# 餐饮销量数据统计量分析代码
from __future__ import print_function
import pandas as pd
catering_sale='E:/WTTfiles/自我学习/机器学习/python数据分析与挖掘实战/chapter3/demo/data/catering_sale.xls'
data=pd.read_excel(catering_sale,index_col=u'日期')
data=data[(data[u'销量']>400) & (data[u'销量']<5000)]#过滤异常数据
statistics=data.describe()#保存基本统计量
statistics.loc['range']=statistics.loc['max']-statistics.loc['min']#极差
statistics.loc['var']=statistics.loc['std']/statistics.loc['mean']#变异系数
statistics.loc['dis']=statistics.loc['75%']-statistics.loc['25%']#四分位数间距
print(statistics)
# 周期性分析：探索某个变量是否随着时间变化而呈现某种周期变化趋势。
# 贡献度分析：又称帕累托分析，原理是帕累托法则，又称20/80定律。80%的利润常常来自于20%的最畅销产品，剩下的80%的产品只产生了20%的利润。

                销量
count   195.000000
mean   2744.595385
std     424.739407
min     865.000000
25%    2460.600000
50%    2655.900000
75%    3023.200000
max    4065.200000
range  3200.200000
var       0.154755
dis     562.600000