统计学 数据的概括性度量

第四章 数据的概括性度量

数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心的趋势;三是分布的形状,反映数据分布的偏态和峰态。

4.1 集中趋势的度量

4.1.1 分类数据:众数

众数(mode)是一组数据中出现次数最多的变量值,用 Mo 表示。众数主要用于测度分类数据的集中趋势,当然也适用于顺序数据和数值型数据。一般情况下,只有在数据量较大的情况下,众数才有意义。

4.1.2 数序数据:中位数和分位数

  1. 中位数
    是一组数据排序后处于中间位置上的变量值,用 Me 表示。中位数主要用于测度顺序数据的集中趋势,当然也适用于数值型数据,但不适用于分类数据。
  2. 四分位数
    它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分4部分,其中每部分包含25%的数据。

4.1.3 数值型数据:平均数

平均数也称均值(mean),它是一组数据相加后除以数据的个数得到的结果。不适用于分类数据和顺序数据。
根据所掌握数据的不同,平均数有不同的计算形式和计算公式。
1. 简单平均数(simple mean)和加权平均数(weighted mean)
1. 几何平均数(geometric mean) 是n个变量乘积的n次方根,用G表示。几何平均数主要用于计算平均比率。

4.1.4 众数、中位数和平均数的特点与试用场合

  1. 众数是一组数据分布的峰值,不受极端值影响,其特点是不唯一,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜食用众数。众数主要适合作为分类数据的集中趋势测度值。
  2. 中位数时一组数据中间位置上的代表值,不受数据极端值影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个较好的选择。中位数主要适合于数序数据的集中趋势测度值。
  3. 平均数是针对数值型数据计算的,而且利用了全部数据信息。当数据呈对称或接近对称分布时,3个代表值相等或接近相等,这时应该选在平均值作为集中趋势的代表值。但平均数的主要缺点是容易受到极端值影响,对于偏态数据,可以考虑中位数和众数。

4.2 离散程度的度量

数据的离散程度时数据分布的另一个重要特征,它反映的是各个变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。离散程度越小,其代表性就越好。描述数据离散程度采用的测度值,根据数据类型的不同主要有异纵比率、四分位差、方差和标准差。 此外,还有极差、平均差以及测度相对离散程度的离散系数等。

4.2.1 分类数据:异纵比率

异纵比率(variation ratio)是指非众数组的频数占总频数的比例,用 Vr 表示。其计算公式为:

Vr=fifmfi

式中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值