衡量数据的离散程度

转载自https://www.cnblogs.com/kira2will/p/4357434.html

衡量数据的离散程度

我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

极差(Range)

  极差也叫全距,指数据集中的最大值与最小值之差:

Range

  极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

四分位距(interquartile range,IQR)

  我们通常使用箱形图来表现一个数据集的分布特征:

box-plot

  一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

 interquartile-range

  如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

方差(Variance)

  方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

Variance

  方差是最常用的衡量数据离散情况的统计量。

标准差(Standard Deviation)

  方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

Standard-Deviation

  基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

平均差(Mean Deviation)

  方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

Mean-Deviation

  平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

变异系数(Coefficient of Variation,CV)

  上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

  变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

Coefficient-of-Variation

  变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

  

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
狭义数据分析1 抽样理论 集中趋势:均值、中位数、分位数、众数 离中趋势:标准差、⽅差 数据分布:偏态、峰态、正态分布 抽样理论:抽样误差、抽样精度 均值 df.mean() 计算:数字加起来除以总量 作⽤:经常⽤来衡量⼀些连续值,尤其是分布⽐较规律、均匀的连续值的集中趋势。 中位数 df.median() 作⽤:衡量异常值,有⼀些特别⼤或者特别⼩,⽤中位数衡量异常值的集中趋势。 众数 df.mode() 作⽤:⽤在离散值的集中趋势衡量。 分位数 df.quantile() 概述:就是把数据从⼩到⼤排列,然后切分成等份的数据点,最常⽤是四分位数。 计算:总数n,Q1位置=(n+1)*0.25,Q2位置=(n+1)*0.5,Q3位置=(n+1)*0.75 作⽤:配合其他⼀起使⽤ 离中趋势:df.std() df.var() 是数据离散程度衡量衡量的量有标准差和⽅差 ⽅差或标准差越⼤就表⽰数据离散,越⼩就表⽰数据越聚拢 偏态系数: df.skew() 数据平均值偏离状态的⼀种衡量,要注意的是这⾥偏态的偏指的是偏离平均值,通常⼀个对称性的数据来讲,他的中位数和平均值是⾮常接 近的。但有的时候数据并⾮是对称分布的,这样中位数和均值就会差得⽐较多,这样的分布就是有偏态的分布。均值⽐中位数⼤就是正偏。 如果算出来的偏态系数是负的,就是负偏,那就是处于⼀个⽐较好的状态,⼤多数⼈⽐较满意的状态。 峰态系数: 数据集中程度衡量,这个值越⼤,顶就会越尖,这个值越⼩,分布就会更平缓⼀些。正太分布的峰态系数是3,所以经常有算法将这个值 减去3,将正太分布的系数定为0也是可以的。如果有⼀个分布的峰态系数 1<K<5 也就是说他和正态分布的峰态系数相差⼤于了2,那么基 本可以断定这个分布不是正太分布了。所以峰态系数主要的作⽤就是可以直接否定⼀个分布不是正态分布。 三⼤分布: 卡⽅分布,t分布,f分布 卡⽅分布: ⼏个变量都是标准正态分布(均值为0,⽅差为1),如果⼏个标准正态分布,它的平⽅和满⾜⼀个分布,那么这个分布就是卡⽅分布。 t分布: 正态分布的⼀个随机变量除以⼀个服从卡⽅分布的变量就是t分布。 作⽤:t分布经常⽤来根据⼩样本,来估计成正态分布且⽅差未知的总体的均值 f分布: 是由构成两个服从卡⽅分布的随机变量的⽐构成的,就是两个卡⽅分布的商。 正态分布的定义 有⼏种不同的⽅法⽤来说明⼀个随机变量。最直观的⽅法是概率密度函数,这种⽅法能够表⽰随机变量每个取值有多⼤的可能性。累积分布 函数是⼀种概率上更加清楚的⽅法 抽样理论 抽样分为重复抽样和⾮重复抽样(抽完以后不放回) 抽样⽅式:完全随机抽样,等差距抽样(根据某个属性,从低到⾼进⾏排列,等差距的进⾏抽样),分类分层抽样(根据各个类别的⽐例进 ⾏抽样,保证样本在这个类别下的抽样与总体是⼀致的) 重复抽样的误差、⾮重复抽样的误差都有对应的计算公式 应⽤实例1----根据平均误差和平均值估计准确的平均值: 因为是放回的抽样,根据公式算出了误差 μ 因为有95%的概率保证,根据正太分布即为-2μ ~ +2μ之间,所以估计平均每条草鱼的质量在 平均值-2μ 到平均值+2μ之内 (1.86~2.14公⽄) 实例2---------计算要抽样的数量: 理论部分的代码实现 各个数值 import pandas as pd df = pd.read_csv(path) df.mean() df.median() df.var() 利⽤分布函数给出x值求出y值 import scipy.stats as ss ss.norm # ⽣成⼀个正太分布对象 ss.norm.stats(moments='mvsk')# 查看默认的正态分布的参数 mean var skew kurt # Out[13]: (array(0.), array(1.), array(0.), array(0.)) 利⽤公式 ss.norm.pdf(0.0)# 带⼊具体的x值 # Out[14]: 0.3989422804014327 ss.norm.pdf(0.0) Out[14]: 0.3989422804014327 ss.norm.ppf(0.9)# 概率密度函数从-⽆穷到+⽆穷的积分是1,ppf是指从-⽆穷到啥的积分是参数 Out[15]: 1.2815515655446004 ss.norm.cdf(2)# 从-⽆穷到给定参数的积分是多少 Out[16]: 0.9772498680518208 ss.norm.cdf(2) - ss.norm.cdf(-2)# Out[17]: 0.9544997361036416 ss.norm.rvs(size=10)# ⽣成10个符合正态分布的数 Out[18]: array([ 0.40

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值