数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数

数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择。

首先针对不同的衡量方式的应用场景大体归纳如下:

极差:极差为数据样本中的最大值与最小值的差值R=max(i)-min(i),是所有方式中最为简单的一种,它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极差为60,反应了学习最好的学生与学习最差的学生得分差距为60.

四分位差:即数据样本的上四分之一位和下四分之一位的差值Q_{d}=Q_{u}-Q_{l},反应了数据中间50%部分的离散程度,其数值越小表明数据越集中,数值越大表明数据越离散,同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度,越小代表程度越高,越大代表程度越低。

平均差:即M_{d}=\frac{\sum_{n}^{i=1}\left |x_{n} -\bar{x} \right |}{n},针对分组数据为M_{d}=\frac{\sum_{n}^{i=1}\left |x_{n} -\bar{x} \right |f_{i}}{n}。各变量值与平均值的差的绝对值之和除以总数n,平均差以平均数为中心,能全面准确的反应一组数据的离散状况,平均差越大,说明数据离散程度越大,反之,离散程度越小。

方差/标准差:方差是各变量与平均值的差的平方和除以总数n-1,s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}}{n-1}针对分组数据s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}f_{i}}{n-1},方差开根号后为标准差,方差与标准差都能很好的反应数据的离散程度。

异种比率:是指非众数组的频数占总频数的比例。V_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}}其中\sum f_{i}为变量值的总频数,f_{m}为众数组的频数。异种比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差,即占比越小,异种比率越小,说明众数的代表性越好,即占比越大。异种比率主要适合度量分类数据的离散程度,当然连续数据可以计算异种比率。

离散系数:即变异系数,针对不同数据样本的标准差和方差,因数据衡量单位不同其结果自然无法直接进行对比,为出具一个相同的衡量指标,则进行了离散系数的计算。离散系数为一组数据的标准差与平均数之比V_{i}=\frac{s}{\bar{x}}

import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
          32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
          43, 25, 24, 23, 24, 44, 23, 14, 52,32,
          42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和:',np.sum(scores))
print('个数:',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))
#偏度与峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))</span>

  • 60
    点赞
  • 218
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
四分位差是指上四分位数与下四分位数之差,用来衡量数据离散程度。它是一种非常简单直观的度量方法,不受极端值的影响,主要用于衡量中位数的代表性。 方差是一组数据与其平均值之差的平方的平均值,它用来衡量数据离散程度方差越大,数据越分散;方差越小,数据越集中。方差是最常用的衡量数据离散程度的方法之一。 标准差方差的平方根,它与方差具有相同的度量单位,但更易于理解和解释。标准差越大,数据离散程度越大;标准差越小,数据离散程度越小。 平均绝对离差是一组数据与其平均值之差的绝对值的平均值,它衡量数据离散程度。平均绝对离差不受极端值的影响,但相对于方差标准差,它更容易受到异常值的干扰。 变异系数标准差与平均值之比,主要用于比较不同样本数据离散程度。变异系数越大,表示数据离散程度越大;变异系数越小,表示数据离散程度越小。变异系数是一种无量纲的指标,适用于不同单位或量级的数据进行比较。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [统计学系列——数据分布特征与适用的描述统计量](https://blog.csdn.net/weixin_45665432/article/details/112220875)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [数据分析|数据分布特征的描述](https://blog.csdn.net/qq_31405629/article/details/103019415)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值