- 集中趋势指标
- 离散程度指标
- 分布情况指标
集中趋势指标:平均值、中位数、众数
集中趋势可以知道数值的一般水平。
1、平均值的一个弊端就是容易受到异常值的影响。
2、为了避免受到异常值的影响,同时又能反应数据的整体分布情况,引入中位数。数据按照从小到大的顺序排列,处于位置中间的数值即为中位数。
3、众数就是众多的数,只有在数据个数足够多时才有意义。
离散程度指标:全距、方差、标准差
离散程度指标可以知道群体内整体分布的差异,比如是大多数都在平均值附近,还是只有少部分高于平均值,而大部分低于平均值呢?
离散程度指标越大,说明数据之间差异越大,即分布越离散,反之则说明数据相对比较集中。
1、全距,又称为极差,即数据的最大数减去最小数。全距只表示了数据的宽度,没有描述清楚数据上下界之间的分布形态。
2、方差是每个数值与平均值的差值的平方的平均值,方差越小说明各数值与平均值之间的差距越小,数据越集中。
3、标准差是方差的开方。表示各数值与平均值差值的平均值。标准差与实际指标的单位是一致的,更具有实际意义。
分布情况指标:偏态系数、峰态系数
1、偏态系数是用来反映数据对称情况的指标。如果数据的分布是对称的,那么偏态系数就等于0;如果偏态系数不等于0,则说明数据的分布不对称。
- 若偏态系数>1或<-1,则数据呈高度偏态分布
- 若偏态系数范围为[0.5,1]和[-1,-0.5],则数据呈中等偏态分布
- 若偏态系数在0附近,则数据呈轻微偏态分布
偏态系数的绝对值越大,说明偏态分布越严重。
- 当偏态系数为正值时,数据为正偏态分布或右偏态分布
- 当偏态系数为负值时,数据为负偏态分布或左偏态分布
注意:左偏还是右偏是指长尾的偏向,左偏说明长尾在左边。
2、峰态系数用来反映数据分布与标准正态分布的峰度之间的差异。
- 若峰态系数等于0,则说明数据分布符合标准正态分布
- 若峰态系数大于0,则说明数据分布比标准正态分布更尖,称为尖峰分布
- 若峰态系数小于0,则说明数据分布比标准正态分布更平,称为平峰分布
import pandas as pd
df=pd.DataFrame({'员工':['E001','E002','E003','E004','E005','E006','E007','E008','E009','E010'],'工资':[12274,14558,13566,7531,18000,8749,8136,16537,9269,35000]})
print(df)
print(df['工资'].mean()) #求平均值
print(df['工资'].median()) #求中位数
print(df['工资'].quantile(0.5)) #求分位数
print(df['工资'].quantile([0.25,0.5,0.75])) #同时求多个分位数
print(df['工资'].max()-df['工资'].min()) #求全距
print(df['工资'].var()) #ddof默认值1表示求样本方差
print(df['工资'].var(ddof=0)) #ddof=0求的是总体方差
print(df['工资'].std()) #求样本标准差
print(df['工资'].std(ddof=0)) #求总体标准差
print(df['工资'].skew()) #求偏态系数
print(df['工资'].kurt()) #求峰态系数
书籍资料:《对比Excel,轻松学习Python统计分析》- 张俊红