第四章 数据的概括性度量
数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心的趋势;三是分布的形状,反映数据分布的偏态和峰态。
4.1 集中趋势的度量
4.1.1 分类数据:众数
众数(mode)是一组数据中出现次数最多的变量值,用 Mo 表示。众数主要用于测度分类数据的集中趋势,当然也适用于顺序数据和数值型数据。一般情况下,只有在数据量较大的情况下,众数才有意义。
4.1.2 数序数据:中位数和分位数
- 中位数
是一组数据排序后处于中间位置上的变量值,用 Me 表示。中位数主要用于测度顺序数据的集中趋势,当然也适用于数值型数据,但不适用于分类数据。 - 四分位数
它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分4部分,其中每部分包含25%的数据。
4.1.3 数值型数据:平均数
平均数也称均值(mean),它是一组数据相加后除以数据的个数得到的结果。不适用于分类数据和顺序数据。
根据所掌握数据的不同,平均数有不同的计算形式和计算公式。
1. 简单平均数(simple mean)和加权平均数(weighted mean)
1. 几何平均数(geometric mean) 是n个变量乘积的n次方根,用G表示。几何平均数主要用于计算平均比率。
4.1.4 众数、中位数和平均数的特点与试用场合
- 众数是一组数据分布的峰值,不受极端值影响,其特点是不唯一,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜食用众数。众数主要适合作为分类数据的集中趋势测度值。
- 中位数时一组数据中间位置上的代表值,不受数据极端值影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个较好的选择。中位数主要适合于数序数据的集中趋势测度值。
- 平均数是针对数值型数据计算的,而且利用了全部数据信息。当数据呈对称或接近对称分布时,3个代表值相等或接近相等,这时应该选在平均值作为集中趋势的代表值。但平均数的主要缺点是容易受到极端值影响,对于偏态数据,可以考虑中位数和众数。
4.2 离散程度的度量
数据的离散程度时数据分布的另一个重要特征,它反映的是各个变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。离散程度越小,其代表性就越好。描述数据离散程度采用的测度值,根据数据类型的不同主要有异纵比率、四分位差、方差和标准差。 此外,还有极差、平均差以及测度相对离散程度的离散系数等。
4.2.1 分类数据:异纵比率
异纵比率(variation ratio)是指非众数组的频数占总频数的比例,用 Vr 表示。其计算公式为:
Vr=∑fi−fm∑fi
式中