Python统计分析基础知识学习笔记

  • 集中趋势指标
  • 离散程度指标
  • 分布情况指标

集中趋势指标:平均值、中位数、众数

集中趋势可以知道数值的一般水平。

1、平均值的一个弊端就是容易受到异常值的影响。

2、为了避免受到异常值的影响,同时又能反应数据的整体分布情况,引入中位数。数据按照从小到大的顺序排列,处于位置中间的数值即为中位数

3、众数就是众多的数,只有在数据个数足够多时才有意义。

离散程度指标:全距、方差、标准差

离散程度指标可以知道群体内整体分布的差异,比如是大多数都在平均值附近,还是只有少部分高于平均值,而大部分低于平均值呢?

离散程度指标越大,说明数据之间差异越大,即分布越离散,反之则说明数据相对比较集中。

1、全距,又称为极差,即数据的最大数减去最小数。全距只表示了数据的宽度,没有描述清楚数据上下界之间的分布形态。

2、方差是每个数值与平均值的差值的平方的平均值,方差越小说明各数值与平均值之间的差距越小,数据越集中。

3、标准差是方差的开方。表示各数值与平均值差值的平均值。标准差与实际指标的单位是一致的,更具有实际意义。

分布情况指标:偏态系数、峰态系数

1、偏态系数是用来反映数据对称情况的指标。如果数据的分布是对称的,那么偏态系数就等于0;如果偏态系数不等于0,则说明数据的分布不对称。

  • 若偏态系数>1或<-1,则数据呈高度偏态分布
  • 若偏态系数范围为[0.5,1]和[-1,-0.5],则数据呈中等偏态分布
  • 若偏态系数在0附近,则数据呈轻微偏态分布

偏态系数的绝对值越大,说明偏态分布越严重。

  • 当偏态系数为正值时,数据为正偏态分布或右偏态分布
  • 当偏态系数为负值时,数据为负偏态分布或左偏态分布

注意:左偏还是右偏是指长尾的偏向,左偏说明长尾在左边。

2、峰态系数用来反映数据分布与标准正态分布的峰度之间的差异。

  • 若峰态系数等于0,则说明数据分布符合标准正态分布
  • 若峰态系数大于0,则说明数据分布比标准正态分布更尖,称为尖峰分布
  • 若峰态系数小于0,则说明数据分布比标准正态分布更平,称为平峰分布
import pandas as pd

df=pd.DataFrame({'员工':['E001','E002','E003','E004','E005','E006','E007','E008','E009','E010'],'工资':[12274,14558,13566,7531,18000,8749,8136,16537,9269,35000]})
print(df)
print(df['工资'].mean()) #求平均值
print(df['工资'].median()) #求中位数
print(df['工资'].quantile(0.5)) #求分位数
print(df['工资'].quantile([0.25,0.5,0.75])) #同时求多个分位数
print(df['工资'].max()-df['工资'].min()) #求全距
print(df['工资'].var()) #ddof默认值1表示求样本方差
print(df['工资'].var(ddof=0)) #ddof=0求的是总体方差
print(df['工资'].std()) #求样本标准差
print(df['工资'].std(ddof=0)) #求总体标准差
print(df['工资'].skew()) #求偏态系数
print(df['工资'].kurt()) #求峰态系数

书籍资料:《对比Excel,轻松学习Python统计分析》- 张俊红

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值