数据统计分析（4）：数据的离散程度描述

最新推荐文章于 2024-04-16 09:56:43 发布

小狼躲藏

最新推荐文章于 2024-04-16 09:56:43 发布

阅读量5.8w

点赞数 18

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/nxcjh321/article/details/89166448

版权

数据分析专栏收录该内容

14 篇文章 13 订阅

订阅专栏

极差

极差又被称为范围差或全距（Range），以R表示，是用来表示统计资料中的变异量数，其最大值与最小值之间的差距，即最大值减最小值后所得之数据。

它是标志值变动的最大范围，它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较，单位不同，方差能用做比较，因为都是个比率。

计算公式：

最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。极差=最大标志值—最小标志值 [1]

R=xmax-xmin（其中，xmax为最大值，xmin为最小值）

平均偏差

平均偏差是数列中各项数值与其算术平均数的离差绝对值的算术平均数。平均偏差是用来测定数列中各项数值对其平均数离散程度的一种尺度。平均偏差可以分为简单平均偏差和加权平均偏差。

在统计中，如果要反映出所有原数据间的差异，就要在各原数据之间进行差异比较，当原数据较多时，进行两两比较就很麻烦，因此需要找到一个共同的比较标准，取每个原数据值与标准值进行比较。这个标准值就是算术平均数。

平均偏差就是每个原数据值与算术平均数之差的绝对值的均值，用符号A.D.(average deviation)表示。平均偏差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零，离差的平均数不能将离差和除以离差的个数求得，而必须将离差取绝对数来消除正负号。

平均偏差是反映各标志值与算术平均数之间的平均差异。平均偏差越大，表明各标志值与算术平均数的差异程度越大。该算术平均数的代表性就越小；平均偏差越小，表明各标志值与算术平均数的差异程度越小，该算术平均数的代表性就越大。

平均偏差又有简单平均偏差和加权平均偏差之分。

计算公式：

简单平均偏差

如果原数据未分组，则计算平均偏差的公式为：

该式称为简单平均偏差。

加权平均偏差

在分组情况下，平均偏差的计算公式为：

该式称为加权平均偏差。 [1]

方差和标准差

方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。

统计学意义：

当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。 [6]

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差；样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量，样本方差或样本标准差越大，样本数据的波动就越大。

方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数，它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根，用S表示。方差相应的计算公式为：

标准差与方差不同的是，标准差和变量的计算单位相同，比方差清楚，因此很多时候我们分析的时候更多的使用的是标准差。

标准差

标准差（Standard Deviation），中文环境中又常称均方差，是离均差平方的算术平均数的平方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。

变异系数

变异系数（Coefficient of Variation）:当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲不同，直接使用标准差来进行比较不合适，此时就应当消除测量尺度和量纲的影响，而变异系数可以做到这一点，它是原始数据标准差与原始数据平均数的对比。CV没有量纲，这样就可以进行客观比较了。事实上，可以认为变异系数和极差，标准差和方差一样，都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响，而且还受变量值平均水平大小的影响。

定义：

在概率论和统计学中，变异系数，又称“离散系数”（英文：coefficient of variation），是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比：

变异系数（coefficient of variation）只在平均值不为零时有定义，而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。

计算公式：

(标准偏差SD、平均值MN)

优缺点：

优点

比起标准差来，变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量，因此在比较两组量纲不同或均值不同的数据时，应该用变异系数而不是标准差来作为比较的参考。

缺陷

当平均值接近于0的时候，微小的扰动也会对变异系数产生巨大影响，因此造成精确度不足。

变异系数无法发展出类似于均值的置信区间的工具。

四分位差

四分位差（quartile deviation）,它是上四分位数（Q3，即位于75%）与下四分位数（Q1, 即位于25%）的差。

计算公式为：Q = Q3-Q1

四分位数是将一组数据由小到大（或由大到小）排序后，用3个点将全部数据分为4等份，与这3个点位置上相对应的数值称为四分位数，分别记为Q1（第一四分位数），说明数据中有25%的数据小于或等于Q1，Q2（第二四分位数，即中位数）说明数据中有50%的数据小于或等于Q2、Q3（第三四分位数）说明数据中有75%的数据小于或等于Q3。其中，Q3到Q1之间的距离的差的一半又称为分半四分位差，记为（Q3-Q1）/2。

四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中；其数值越大，说明中间的数据越分散。四分位差不受极值的影响。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差，但不适合分类数据。

小狼躲藏

关注

18
点赞
踩
81

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据统计分析（4）：数据的离散程度描述

极差极差又被称为范围差或全距（Range），以R表示，是用来表示统计资料中的变异量数，其最大值与最小值之间的差距，即最大值减最小值后所得之数据。它是标志值变动的最大范围，它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较，单位不同，方差能用做比较，因为都是个比率。计算公式：最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。这一方法在日常...
复制链接

扫一扫