统计学 数据的概括性度量

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/liuxuan251314/article/details/78275890

第四章 数据的概括性度量

数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心的趋势;三是分布的形状,反映数据分布的偏态和峰态。

4.1 集中趋势的度量

4.1.1 分类数据:众数

众数(mode)是一组数据中出现次数最多的变量值,用Mo表示。众数主要用于测度分类数据的集中趋势,当然也适用于顺序数据和数值型数据。一般情况下,只有在数据量较大的情况下,众数才有意义。

4.1.2 数序数据:中位数和分位数

  1. 中位数
    是一组数据排序后处于中间位置上的变量值,用Me表示。中位数主要用于测度顺序数据的集中趋势,当然也适用于数值型数据,但不适用于分类数据。
  2. 四分位数
    它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分4部分,其中每部分包含25%的数据。

4.1.3 数值型数据:平均数

平均数也称均值(mean),它是一组数据相加后除以数据的个数得到的结果。不适用于分类数据和顺序数据。
根据所掌握数据的不同,平均数有不同的计算形式和计算公式。
1. 简单平均数(simple mean)和加权平均数(weighted mean)
1. 几何平均数(geometric mean) 是n个变量乘积的n次方根,用G表示。几何平均数主要用于计算平均比率。

4.1.4 众数、中位数和平均数的特点与试用场合

  1. 众数是一组数据分布的峰值,不受极端值影响,其特点是不唯一,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜食用众数。众数主要适合作为分类数据的集中趋势测度值。
  2. 中位数时一组数据中间位置上的代表值,不受数据极端值影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个较好的选择。中位数主要适合于数序数据的集中趋势测度值。
  3. 平均数是针对数值型数据计算的,而且利用了全部数据信息。当数据呈对称或接近对称分布时,3个代表值相等或接近相等,这时应该选在平均值作为集中趋势的代表值。但平均数的主要缺点是容易受到极端值影响,对于偏态数据,可以考虑中位数和众数。

4.2 离散程度的度量

数据的离散程度时数据分布的另一个重要特征,它反映的是各个变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。离散程度越小,其代表性就越好。描述数据离散程度采用的测度值,根据数据类型的不同主要有异纵比率、四分位差、方差和标准差。 此外,还有极差、平均差以及测度相对离散程度的离散系数等。

4.2.1 分类数据:异纵比率

异纵比率(variation ratio)是指非众数组的频数占总频数的比例,用Vr表示。其计算公式为:

Vr=fifmfi

式中 fi为变量值的总频数,fm 为众数组的频数。

4.2.2 顺序数据:四分位差

四分位差(quartile deviation)也称内距或四分位距,它是上四分位数与下四分位数之差,用Qd表示。

4.2.3 数值型数据:方差和标准差

  1. 极差(range):一组数据中的最大值和最小值之差,也叫全距,用R表示。
  2. 平均差(mean deviation)也称平均绝对距离,它是各变量值与其平均数离差绝对值的平均数,用Md表示。计算公式为:

    Md=ni=1xix¯i

  3. 方差和标准差 方差(variance)是各变量值与其平均数离差平方的平均数。方差的平方根叫标准差(standard deviation)。方差公式为:

    s=ni=1(xix¯)2n1

  4. 样本方差是用样本数据个数减1后去除离差平方和,其中样本个数减1即n-1称为自由度(degree of freedom)
  5. 相对位置的度量
    • 标准化分数(standard score)
      变量值与其平均数的离差除以标准差后的值,也称为标准化值或z分数,设标准分数为z,则有
      zi=xix¯s

      标准分数给出了一组数据中各数值的相对位置。z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0,标准差为1.
    • 经验法则
    • 切比雪夫不等式

4.2.4 相对离散程度:离散系数

离散系数也称为变异系数(coefficient of variation),它是一组数据的标准差与其相应的平均数之比,其公式为:

vi=sx¯

离散系数可以消除变量值水平高低和计量单位不同对离散程度测度值的影响,主要用于比较不同样本数据的离散程度。离散系数越大,说明数据的离散程度也大;离散系数越小,说明离散程度也小。

偏态与峰态的度量

偏态和峰态是对数据分布形状的度量。

偏态及其测度

偏态(skewness)是对数据分布对称性的度量。测度偏态的统计量是偏态系数(coefficient of skewness),记作SK。公式为:

SK=n(xix¯)3(n1)(n2)s3

式中,s3是样本标准差的三次方。
如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布式非对称的。若偏态系数大于1或小于-1,称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏态程度就越低。

峰态及其测度

峰态(kurtosis)是对数据分布平峰或尖峰程度的测度。侧度峰态度统计量是峰态系数(coefficient of kurtosis),记作K。

峰态通常是与正态分布相对比较而言的,如果一组数据服从正态分布,则峰态系数的值等于0;若分态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。计算公式为:

K=n(n+1)(xix¯)43[(xix¯)2]2(n1)(n1)(n2)(n3)s4

由于正态分布的峰态系数为0,当K>0时为尖峰分布,数据分布更集中供暖;当K<0时为扁平分布,数据的分布越分散。


本内容来自于《统计学》第六版

博主设置当前文章不允许评论。

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试