统计数据描述

数据描述

内容主要参考国家统计局:https://www.stats.gov.cn/zsk/s?tab=tjll&siteCode=tjzsk&sitePath=true
**表示重点内容

1. 平均数

平均数也称为均值(mean),一般包括算术平均数和几何平均数两种形式。利用平均数可以将处在不同地区、不同单位的某现象进行空间对比分析,也可以将不同时间内的某现象进行时间对比分析,反映现象一般水平的变化趋势和规律。

2. 算术平均数

算术平均数(average)是一组数据相加后除以数据的个数而得到的结果,是度量数据水平的常用统计量,在参数估计和假设检验中经常用到。比如:用职工平均工资来衡量职工工资的一般水平,用平均体重来观察某一人群体重是否超标等等。平均数的应用非常广泛,但计算方法比较简单,它等于一个变量的所有观测值相加再除以观测值的数目。

根据所掌握数据的不同,算术平均数有不同的计算公式。根据未经分组数据计算的平均数称为简单平均数。假设一组样本数据为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,样本量为 n n n,则简单样本平均数用 x ˉ \bar{x} xˉ表示,计算公式为:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1nxi
其中, x ˉ \bar{x} xˉ是均值, x i x_i xi是第 i i i 个数据点, n n n 是数据点的总数。

若原始数据较多且对其进行了分组,编制成了频数分布数列,这时要计算算术平均数则应采用加权算术平均数,即将各组变量值乘以相应的频数,然后加总求和,再除以总频数。如果数据被分为k个组,每个组有对应的组中值 x i x_i xi(通常是组的中点或者组的平均值)和频数 f i f_i fi,其中 i = 1 , 2 , … , k i = 1, 2, \ldots, k i=1,2,,k,加权算术平均数的计算公式为:
x ˉ = ∑ i = 1 k ( x i ⋅ f i ) ∑ i = 1 k f i \bar{x} = \frac{\sum_{i=1}^{k} (x_i \cdot f_i)}{\sum_{i=1}^{k} f_i} xˉ=i=1kfii=1k(xifi)
其中:

  • x ˉ \bar{x} xˉ 表示加权算术平均数。
  • x i x_i xi是第 i i i 个组的组中值或者组的平均值。
  • f i f_i fi 是第 i i i 个组的频数(即该组包含的数据点个数)。
  • ∑ i = 1 k ( x i ⋅ f i ) \sum_{i=1}^{k} (x_i \cdot f_i) i=1k(xifi) 表示所有组中值乘以对应的频数的总和。
  • ∑ i = 1 k f i \sum_{i=1}^{k} f_i i=1kfi 表示所有频数的总和,即数据点的总数。

这样计算得到的 x ˉ \bar{x} xˉ 是考虑了各组频数的加权平均数,适用于已分组的频数分布数据。

3. 几何平均数

几何平均数(geometric mean)主要用于计算比率等相对数的平均数,是n个比率乘积的n次方根。几何平均数有两种计算方法:简单几何平均和加权几何平均法。若数据集合中每个数据只出现一次,计算其几何平均数应采用简单几何平均法,其计算公式为:
G = x 1 ⋅ x 2 ⋅ … ⋅ x n n G = \sqrt[n]{x_1 \cdot x_2 \cdot \ldots \cdot x_n} G=nx1x2xn
其中, G G G 表示几何平均数, $x_1, x_2, \ldots, x_n 是数据集合中的各个数据点, 是数据集合中的各个数据点, 是数据集合中的各个数据点,n$ 是数据点的总数。这种方法适用于数据集合中每个数据点仅出现一次的情况。

当数据集合中每个数据出现的次数不止一次时,计算平均数应采用加权几何平均法。其计算公式为:
G = x 1 w 1 ⋅ x 2 w 2 ⋅ … ⋅ x n w n n G = \sqrt[n]{x_1^{w_1} \cdot x_2^{w_2} \cdot \ldots \cdot x_n^{w_n}} G=nx1w1x2w2xnwn
其中, G G G 表示几何平均数, $x_1, x_2, \ldots, x_n 是数据集合中的各个数据点, 是数据集合中的各个数据点, 是数据集合中的各个数据点,n$ 是数据点的总数, w i w_i wi 是第 i i i 个数据点的权重或频数。

这种方法适用于数据集合中每个数据点出现次数不同的情况,通过对每个数据点的乘积取 n 次方根来计算几何平均数。

综上所述,简单几何平均法适用于每个数据点仅出现一次的情况,而加权几何平均法适用于数据点出现次数不同的情况

4. 中位数

中位数(median)是将一组数据按照从小到大的顺序排列(或者从大到小的顺序也可以)之后处在数列中点位置的数值,是典型的位置平均数,不受极端变量值的影响。中位数主要用于顺序数据,也可用数值型数据,但不能用于分类数据。

  1. 奇数个数列的中位数

    • 如果数据列是奇数个,中位数就是排列后的第 n + 1 2 \frac{n+1}{2} 2n+1 个数,其中 n n n 是数据点的总数。

    例如,对于数据集合 1 , 2 , 5 , 9 , 11 1, 2, 5, 9, 11 1,2,5,9,11 ,共有 5 个数据点,中位数位置为 5 + 1 2 = 3 \frac{5+1}{2} = 3 25+1=3,因此中位数是第 3 个数,即5。

  2. 偶数个数列的中位数

    • 如果数据列是偶数个,中位数是排列后的第 n 2 \frac{n}{2} 2n 个数和第$\frac{n}{2} + 1 $个数的平均数。

    例如,对于数据集合 1, 2, 5, 9, 11, 12,共有 6 个数据点,中位数位置为 6 2 = 3 \frac{6}{2} = 3 26=3 6 2 + 1 = 4 \frac{6}{2} + 1 = 4 26+1=4,所以中位数是第 3 个数 5和第 4 个数 9 的平均数,即 5 + 9 2 = 7 \frac{5 + 9}{2} = 7 25+9=7 .

这种方式确保了无论数据点的数量是奇数还是偶数,中位数都能被准确地确定。

5. 分位数

把顺序排列的一组数据分割为若干相等部分的分割点的数值即为相应的分位数(quantile)。中位数是分位数中最简单的一种,它将数据等分成两分。由于四分位数(quartile)则是将数据按照大小顺序排序后,把数据分割成四等分的三个分割点上的数值。对原始数据,四分位数的位置一般为 n + 1 4 \frac{n+1}{4} 4n+1 n + 1 2 \frac{n+1}{2} 2n+1 3 ( n + 1 ) 4 \frac{3(n+1)}{4} 43(n+1) 。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。

十分位数(deciles)是将数据按照大小顺序排序后,把数据分割成十等分的九个分割点上的数值;百分位数(percentile)是将数据按照大小顺序排序后,把数据分割成一百等分的九十九个分割点上的数值。

以下是常见的分位数及其计算方法:

  1. 中位数(二分位数,Median)

    • 将数据分成两等份的分位数。
    • 位置: n + 1 2 \frac{n+1}{2} 2n+1(如果 n n n 是数据点的总数)。
    • 如果 n + 1 2 \frac{n+1}{2} 2n+1 不是整数,则中位数是中间两个数的平均值。
  2. 四分位数(四分位数,Quartile)

    • 将数据分成四等份的分位数。
    • 第一四分位数 Q 1 Q1 Q1 n + 1 4 \frac{n+1}{4} 4n+1的位置。
    • 第二四分位数 Q 2 Q2 Q2,即中位数:同中位数的计算方式, n + 1 2 \frac{n+1}{2} 2n+1的位置。
    • 第三四分位数 Q 3 Q3 Q3 3 ( n + 1 ) 4 \frac{3(n+1)}{4} 43(n+1) 的位置。
    • 如果这些位置不是整数,则相应的四分位数是相邻两个数据点的加权平均值。
  3. 十分位数(十分位数,Deciles)

    • 将数据分成十等份的分位数。
    • k k k个十分位数: k ( n + 1 ) 10 \frac{k(n+1)}{10} 10k(n+1)的位置,其中 k = 1 , 2 , … , 9 k = 1, 2, \ldots, 9 k=1,2,,9
    • 如果位置不是整数,则相应的十分位数是相邻两个数据点的加权平均值。
  4. 百分位数(百分位数,Percentile)

    • 将数据分成一百等份的分位数。
    • p p p百分位数: p ( n + 1 ) 100 \frac{p(n+1)}{100} 100p(n+1) 的位置,其中 p = 1 , 2 , … , 99 p = 1, 2, \ldots, 99 p=1,2,,99
    • 如果位置不是整数,则相应的百分位数是相邻两个数据点的加权平均值。

这些分位数的计算方法确保了数据集能够按照指定的等分点来划分,用来描述数据分布的各个部分。

6. 众数

众数(mode),是指一组数据中出现次数或出现频率最多的数值,它是一种位置平均数,不受极端变量值的影响。众数主要用于测度分类数据的集中趋势,也可以用来测度顺序数据和数值型数据的集中趋势。一组数据可以有多个众数,也可能不存在众数,对于未分组的定量数据,我们一般很少使用众数。

7. 异众比率**

异众比率(variation ratio)是指非众数组的频数占总频数的比率,其计算公式为:
异众比率 = n − f m n \text{异众比率} = \frac{n - f_m}{n} 异众比率=nnfm

其中:

  • n n n 是数据的总频数(或总观测数)。
  • f m f_m fm 是众数的频数,即出现次数最多的类别的频数。

解释:

  • n − f m n - f_m nfm 表示非众数组的频数,即除了众数以外所有其他类别的频数之和。
  • 异众比率计算的结果是非众数组的频数占总频数的比例。因此,异众比率越大,非众数组的频数占比越高,众数的代表性越差;反之,异众比率越小,非众数组的频数占比越低,众数的代表性越好。

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。

8. 极差**

极差又称全距(range),是最简单的离散指标,它是一组数据中的最大值和最小值之差,用R表示。其计算公式为:
R = max ⁡ ( x 1 , x 2 , … , x n ) − min ⁡ ( x 1 , x 2 , … , x n ) R = \max(x_1, x_2, \ldots, x_n) - \min(x_1, x_2, \ldots, x_n) R=max(x1,x2,,xn)min(x1,x2,,xn)
其中:

  • R R R 表示极差 r a n g e range range
  • max ⁡ ( x 1 , x 2 , … , x n ) \max(x_1, x_2, \ldots, x_n) max(x1,x2,,xn)表示数据集合 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 中的最大值。
  • min ⁡ ( x 1 , x 2 , … , x n ) \min(x_1, x_2, \ldots, x_n) min(x1,x2,,xn)表示数据集合 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 中的最小值。

极差是最简单的离散指标之一,它描述了一组数据的整体范围。通过计算极差,我们可以快速了解数据集中数值的分散程度,即数据的最大波动范围

9. 四分位距**

四分位距(interquartile range,IQR)是一组数据中上四分位数(第三四分位数,Q3)和下四分位数(第一四分位数,Q1)之间的差距,用于衡量数据中间50%数据的离散程度,不受极值的影响。其计算公式如下:

IQR = Q 3 − Q 1 \text{IQR} = Q3 - Q1 IQR=Q3Q1
其中:

  • Q 1 Q1 Q1 是第一四分位数,将数据分成四等份后第一个四分位点的值。
  • Q 3 Q3 Q3 是第三四分位数,将数据分成四等份后第三个四分位点的值。

四分位距反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位距不受极值的影响。此外,由于中位数处于数据的中间位置,因此四分位距的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位距主要用于测量顺序数据(有序数据)的离散程度。对于数值型数据,特别是偏态分布或含有极端值的数据集,四分位距比极差更为稳健,因为它不受极值的影响,更能反映数据集中间部分的真实分布情况。

10. 平均差

平均差(mean deviation)或称平均绝对差(mean absolute deviation,简称MAD)是一组数据中每个数据点与其均值之差的绝对值的平均数。它是一种用来衡量数据散布程度的统计指标,但由于其数学性质较差,常常不如标准差等更为常用的指标。平均差的计算公式根据数据是否分组可以分为两种情况:

  1. 未分组数据的平均差(Mean Absolute Deviation for Ungrouped Data)

MAD = 1 n ∑ i = 1 n ∣ x i − x ˉ ∣ \text{MAD} = \frac{1}{n} \sum_{i=1}^{n} |x_i - \bar{x}| MAD=n1i=1nxixˉ

其中:

  • MAD \text{MAD} MAD 表示平均绝对差(mean absolute deviation)。
  • n n n 是数据点的总数。
  • x i x_i xi 是第 i i i 个数据点。
  • x ˉ \bar{x} xˉ是数据的算术平均数(均值)。

这个公式表示了每个数据点与均值之间的绝对差的平均值。

  1. 已分组数据的平均差(Mean Absolute Deviation for Grouped Data)

对于已分组的数据,平均差的计算需要考虑到每个组的频数 ( f_i ) 和组中值 ( x_i ),公式如下:

MAD = 1 n ∑ i = 1 k f i ∣ x i − x ˉ ∣ \text{MAD} = \frac{1}{n} \sum_{i=1}^{k} f_i |x_i - \bar{x}| MAD=n1i=1kfixixˉ
其中:

  • k k k 是数据的组数。
  • f i f_i fi是第 i i i 组的频数。
  • x i x_i xi 是第 i i i 组的组中值或者组的平均值
  • x ˉ \bar{x} xˉ是数据的算术平均数(均值)。
  • n n n 是数据点的总数,即 ∑ i = 1 k f i \sum_{i=1}^{k} f_i i=1kfi

这种形式适用于已经分组的频数分布数据,通过考虑每个组的频数加权,来计算整体的平均绝对差。

11. 方差与标准差**

标准差(standard deviation)和方差(variance)是用来衡量数据分布和集中趋势的重要统计量。它们的计算公式如下:

  1. 总体方差(Population Variance)
    σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 σ2=n1i=1n(xiμ)2
    其中:

    • σ 2 \sigma^2 σ2 表示总体方差。
    • n n n是数据点的总数。
    • x i x_i xi 是第 i i i 个数据点。
    • μ \mu μ 是数据的总体均值(population mean)。
  2. 样本方差(Sample Variance)
    s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2
    其中:

    • s 2 s^2 s2 表示样本方差。
    • n n n是样本数据点的总数。
    • x i x_i xi 是第 i i i 个数据点。
    • x ˉ \bar{x} xˉ 是样本的均值(sample mean)。
  3. 总体标准差(Population Standard Deviation)
    σ = σ 2 \sigma = \sqrt{\sigma^2} σ=σ2
    总体标准差是总体方差的平方根。

  4. 样本标准差(Sample Standard Deviation)
    s = s 2 s = \sqrt{s^2} s=s2
    样本标准差是样本方差的平方根。

自由度的解释

  • 样本方差的分母为 n − 1 n-1 n1,这里的 n − 1 n-1 n1 是样本的自由度。这是因为在计算样本方差时,我们用样本均值 x ˉ \bar{x} xˉ 代替总体均值 μ \mu μ,这导致了估计上的偏差。通过除以 n − 1 n-1 n1而不是 n n n,我们可以得到样本方差的无偏估计,即在样本大小较小的情况下更接近真实总体方差。

  • 总体标准差使用 n n n作为分母,因为总体中的每个数据点相对于总体均值 μ \mu μ 的偏差是准确已知的,不需要通过减少一个自由度来进行估计。

  • 为什么样本标准差使用被称为自由度的 n − 1 n-1 n1,而总体的标准差使用 n n n呢?这是因为自由度是指一组数据中可以自由取值的个数,当样本数据的个数为 n n n时,其样本均值是确定的,只有 n − 1 n-1 n1个数据可以自由取值,其中必有一个数据不能自由取值。所以,样本的标准差只能除以 n − 1 n-1 n1,而不能除以 n n n。如:假定一个样本有3个数值4、5、9,它的样本均值=6,当我们自由取值4和9时,另一个数据就不能自由取值了,它必然取5这个数字。

应用和解释

  • 标准差越大,说明数据的离散程度越大,各个观测值分布越分散。
  • 标准差越小,说明数据的离散程度越小,各个观测值分布越集中。

标准差和方差在描述数据集的分布和变异性方面是非常有用的工具,可以帮助我们理解数据的整体特征和集中趋势。

12. 离散系数**

离散系数(dispersion coefficient)也称作变异系数、标准差系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。其计算公式是:

  1. 总体数据的离散系数
    C V population = ( σ μ ) × 100 % CV_{\text{population}} = \left( \frac{\sigma}{\mu} \right) \times 100\% CVpopulation=(μσ)×100%
    其中:

    • C V population CV_{\text{population}} CVpopulation表示总体数据的离散系数。
    • σ \sigma σ是总体标准差。
    • μ \mu μ是总体均值。
  2. 样本数据的离散系数
    C V sample = ( s x ˉ ) × 100 % CV_{\text{sample}} = \left( \frac{s}{\bar{x}} \right) \times 100\% CVsample=(xˉs)×100%
    其中:

    • C V sample CV_{\text{sample}} CVsample 表示样本数据的离散系数。
    • s s s 是样本标准差。
    • x ˉ \bar{x} xˉ 是样本均值。

解释

  • 离散系数可以帮助比较不同数据集的离散程度,因为它是标准差相对于均值的比率。
  • 由于离散系数是一个相对指标,它可以消除数据均值大小对分析结果的影响,特别是在比较不同量纲或数值范围的数据时特别有用
  • 通常情况下,离散系数越大,表示数据的离散程度越高;离散系数越小,表示数据的离散程度越低。

离散系数在统计学和数据分析中广泛应用,特别是在财务分析、生物统计学和经济学等领域,用于描述和比较数据的变异性和稳定性。

13. 标准分数(Z-score)**

标准分数(Z-score)也称作标准化值或Z分数,它是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据在该组数据中的相对位置。其计算公式为:
Z = X − μ σ Z = \frac{X - \mu}{\sigma} Z=σXμ

其中,

  • X X X 是某个具体的数据点;
  • μ \mu μ 是数据集的平均值(均值);
  • σ \sigma σ 是数据集的标准差。

标准分数的计算步骤如下:

  1. 计算数据点 X X X与数据集平均值 μ \mu μ 的差异(称为离差);
  2. 将这个离差除以数据集的标准差 σ \sigma σ,得到标准化后的值 Z Z Z

标准分数的主要用途之一是可以将不同数据集(具有不同均值和标准差的数据集)中的数据进行比较,以确定某个数据点在各自数据集中的相对位置。通过标准化,我们可以消除不同数据集之间的量纲和量级差异,从而进行更为公平和准确的比较。

具体应用场景包括但不限于:

  • 将不同考试的分数进行比较,以了解一个学生在不同考试中的表现;
  • 比较不同地区、不同年份的经济数据,判断经济指标在全国范围内的相对水平;
  • 评估个体的生长发育情况,将身高和体重等生理数据标准化后进行比较。

14. 偏态系数**

数据的不对称性称为偏态(skewness),测度数据的偏斜程度用偏态系数(SK)。偏态系数的计算方法有很多(如皮尔逊偏态系数、鲍莱偏态系数、矩偏态系数等)。

  1. 对于未分组原始数据的偏态系数计算公式:

S K = 1 n ∑ i = 1 n ( X i − X ˉ ) 3 ( 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ) 3 / 2 SK = \frac{\frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^3}{\left( \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right)^{3/2}} SK=(n1i=1n(XiXˉ)2)3/2n1i=1n(XiXˉ)3

其中,

  • n n n 是数据点的数量;
  • X i X_i Xi 是第 i i i 个数据点;
  • X ˉ \bar{X} Xˉ 是数据的平均值。

这个公式中,分子是所有数据点离平均值的离差的三次方的平均数,分母是所有数据点离平均值的离差的平方的平均数的三分之二次方。偏态系数的符号表示数据分布的偏斜方向:正值表示右偏(正偏),负值表示左偏(负偏)。

  1. 对于分组数据的偏态系数计算公式:

对于分组数据,偏态系数的计算公式稍有不同:
S K = 1 N ∑ i = 1 k f i ( X i − X ˉ s ) 3 ( 1 N ∑ i = 1 k f i ( X i − X ˉ s ) 2 ) 3 / 2 SK = \frac{\frac{1}{N} \sum_{i=1}^{k} f_i \left( \frac{X_i - \bar{X}}{s} \right)^3}{\left( \frac{1}{N} \sum_{i=1}^{k} f_i \left( \frac{X_i - \bar{X}}{s} \right)^2 \right)^{3/2}} SK=(N1i=1kfi(sXiXˉ)2)3/2N1i=1kfi(sXiXˉ)3
其中,

  • N N N 是总样本量;
  • k k k 是分组数;
  • X i X_i Xi是第 i i i组的中间值(组中心值);
  • f i f_i fi 是第 i i i 组的频数;
  • X ˉ \bar{X} Xˉ 是总体平均值;
  • s s s是总体标准差。

这个公式中, X i − X ˉ s \frac{X_i - \bar{X}}{s} sXiXˉ表示标准化后的组中心值。计算出的 S K SK SK也可以用来判断分组数据的偏斜方向和程度。

判断偏态程度

  • S K > 0 SK > 0 SK>0 时,数据分布右偏(正偏),即数据集中在平均值右侧,尾部向右延伸;
  • S K < 0 SK < 0 SK<0 时,数据分布左偏(负偏),即数据集中在平均值左侧,尾部向左延伸;
  • S K = 0 SK = 0 SK=0 时,数据分布近似对称。

偏度系数越大,表示数据分布的偏斜程度越大。当分布对称时,离差三次方后正负离差相互抵消,偏态系数的分子为零;当分布不对称时,离差三次方后正负离差不能抵消,偏态系数的分子不为零。当SK大于零时,表示正偏离差数值较大,可判断为正偏或右偏;反之可判断为负偏或左偏。

15. 峰度系数**

数据分布的平峰或尖峰程度称为峰态(kurtosis)。测量数据的偏态程度用峰度系数 K K K,将随机变量的四阶中心矩与其标准差的四次方相除,所得比率即为峰度系数。根据未分组原始数据计算峰态系数时,通常采用下列公式:

  1. 对于未分组原始数据的峰度系数计算公式:

未分组原始数据的峰度系数 K K K 通常计算如下:

K = 1 n ∑ i = 1 n ( X i − X ˉ ) 4 ( 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ) 2 − 3 K = \frac{\frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^4}{\left( \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right)^2} - 3 K=(n1i=1n(XiXˉ)2)2n1i=1n(XiXˉ)43
其中,

  • n n n 是数据点的数量;
  • X i X_i Xi 是第 i i i 个数据点;
  • X ˉ \bar{X} Xˉ是数据的平均值。

这个公式中,分子是所有数据点离平均值的离差的四次方的平均数,分母是所有数据点离平均值的离差的平方的平均数的平方。减去3是为了将正态分布的峰度系数调整为0,因为标准正态分布的峰度系数为3。

  1. 对于分组数据的峰度系数计算公式:

K = 1 N ∑ i = 1 k f i ( X i − X ˉ s ) 4 ( 1 N ∑ i = 1 k f i ( X i − X ˉ s ) 2 ) 2 − 3 K = \frac{\frac{1}{N} \sum_{i=1}^{k} f_i \left( \frac{X_i - \bar{X}}{s} \right)^4}{\left( \frac{1}{N} \sum_{i=1}^{k} f_i \left( \frac{X_i - \bar{X}}{s} \right)^2 \right)^2} - 3 K=(N1i=1kfi(sXiXˉ)2)2N1i=1kfi(sXiXˉ)43

其中,

  • N N N 是总样本量;
  • k k k 是分组数;
  • X i X_i Xi 是第 i i i 组的中间值(组中心值);
  • f i f_i fi 是第 i i i组的频数;
  • X ˉ \bar{X} Xˉ 是总体平均值;
  • s s s 是总体标准差。

这个公式中, X i − X ˉ s \frac{X_i - \bar{X}}{s} sXiXˉ 表示标准化后的组中心值。计算出的 K K K 可以用来判断分组数据的峰态特征。

判断峰态程度

  • K > 0 K > 0 K>0 时,称为正峰态,表示数据分布比正态分布更尖锐(尖峰);
  • K < 0 K < 0 K<0 时,称为负峰态,表示数据分布比正态分布更平坦(扁平);
  • K = 0 K = 0 K=0时,表示数据分布的尾部形状与正态分布相似。

峰度系数 K K K的绝对值越大,说明数据分布的尾部偏离平均值的程度越大,尾部形状的特征更加显著。峰态通常是与标准正态分布相比较而言的。如果数据服从标准正态,则峰度系数等于零;若峰度系数的值明显不为零,则表明数据的分布比正态分布更平或更尖,如图所示。

16. 直方图**

直方图(histogram)是常见且非常重要的一种描述数值型数据图形。它的横坐标代表变量各组的界限,纵坐标代表各变量值出现的频数或频率,各组与相应的频数就形成了一个矩形,即直方图。直方图用矩形的面积来表示各组的频数分布,但对于不等距分组其纵轴必须表示为频数密度:频数密度=频数/组距(面积之和=总频数)。它的构成和特点如下:

  1. 横轴和纵轴
    • **横轴(x轴)**通常代表变量的取值范围或者分组的界限。如果数据被分成若干组(或称为箱子),则横轴上会显示这些组的范围。
    • **纵轴(y轴)**代表各变量值在每个组内出现的频数或者频率。频数表示在每个组内数据出现的次数,而频率则是指频数与总数据量的比值,用以考虑不同样本数量时的可比性。
  2. 矩形的构成
    • 每个组在直方图中由一个矩形表示。矩形的宽度通常相同,代表组的宽度或者间隔。
    • 矩形的高度表示该组内数据的频数或频率。因此,矩形的面积可以直接反映该组的数据量或比例。
  3. 频数密度的计算
    • 如果直方图的分组是不等距的,或者想要比较不同样本量下的频率,可以使用频数密度来表示。频数密度定义为组内的频数除以组距(组的宽度),以此来标准化各组的高度,使得矩形面积总和等于总频数。

17. 箱线图**

箱线图(boxplot)也可称为盒式图、盒须图,也是用于描述数据分布特征的一种图形,常用于显示未分组原始数据的分布

绘制箱线图的步骤如下:

  1. 确定五个关键统计量:
    • 最小值(minimum): 数据集中的最小值。
    • 下四分位数(Q1): 数据集中所有数据排序后,处于第25%位置的值。
    • 中位数(Q2): 数据集中所有数据排序后,处于第50%位置的值,即中间值。
    • 上四分位数(Q3): 数据集中所有数据排序后,处于第75%位置的值。
    • 最大值(maximum): 数据集中的最大值。
  2. 绘制箱子和线段:
    • 箱子(箱体): 由Q1到Q3之间的距离构成,箱体内部画一条线表示中位数(Q2)的位置。
    • 箱须(whiskers): 从箱子两端延伸出来,通常画到最大值和最小值处,或者根据具体情况画到不超过1.5倍四分位距(Q3-Q1)的位置,超出的部分作为异常值显示。
    • 异常值(outliers): 落在箱须之外的数据点,被单独显示出来。

18. 茎叶图

茎叶图(stem & leaf)是由数字形式的茎(stem)和叶(leaf)两部分构成,反映原始数据分布的图形。通过茎叶图,可以看出数据的分布形状及数据的离散状况。主要用于显示未分组原始数据的分布。如,分布是否对称、数据是否集中、是否有离群点等等。

绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,高位数与低位数。通常是以该组数据的高位数值作为树茎,而低位数作其叶。低位数生成叶子时,又只保留1位数来表示低位数。一般将低位数四舍五入后再取其最高位来表示。例如,125分成12|5,12分成1|2,1.25分成12|5(单位:0.01),67268分成6|7(单位10000),等等。前部分是树茎,后部分是树叶。树茎一经确定,树叶就自然地长在相应的树茎上了。

绘制茎叶图的步骤如下:

  1. 确定茎和叶:

    • 茎(stem): 数据的高位数部分。通常选择数据的十位数或百位数作为茎。
    • 叶(leaf): 数据的低位数部分。一般情况下,取数据的个位数或小数部分,保留1位或2位数表示。
  2. 排列数据:

    • 将数据按照茎和叶的方式排列。茎部分按顺序排列,每个茎下的叶则按升序排列。
  3. 绘制图形:

    • 将每个茎与其对应的叶一起列出,形成一种类似直方图的图形,其中每个茎的数值作为横轴,其下的叶表示在这个茎下的原始数据值。

例子:

假设有以下一组数据:12, 15, 17, 20, 22, 25, 27, 29。

  • 茎(stem)为十位数:1, 2
  • 叶(leaf)为个位数或保留的十位数部分。

可以形成茎叶图如下:

1 | 2 5 7 9
2 | 0 2 5 7 9

在这个茎叶图中,茎部分1和2分别代表数据的10-19和20-29范围。每个茎下的叶子则表示具体的数据值。例如,茎1下有叶2、5、7、9,分别对应12、15、17、19这些原始数据点。

比较茎叶图和直方图:

  • 茎叶图可以更直接地反映出数据的具体值,保留了原始数据的信息,适合较小批量的数据集分布展示。
  • 直方图则更适合于大批量数据的分布分析,它通过柱形图展示数据的频数或频率分布,更加精确地显示数据的整体趋势和形状。

19. 折线图**

折线图(line chart)是一种用线段连接数据点来展示数据变化趋势的图形。通常情况下,折线图的横轴表示时间或者其他连续的变量,纵轴表示相应的数据数值。通过观察折线的上升或下降,可以直观地理解数据随时间或其他变量变化的趋势和模式。

折线图的主要特点包括:

  1. 趋势展示:折线图最主要的作用是展示数据随时间变化的趋势。通过观察折线的走势,可以分析出数据的增长、下降或者稳定趋势。

  2. 数据波动:除了趋势外,折线图还可以显示数据的波动性。数据点在折线上的相对位置和变化幅度可以反映出数据的波动情况。

  3. 关键点标识:在折线图中,有时候会通过特殊标记或者注释来标识出重要的数据点或者事件,帮助观察者更好地理解数据的背景和含义。

  4. 比较多组数据:折线图不仅可以展示单一变量随时间的变化,还可以比较多个变量在同一时间段内的趋势,从而分析它们之间的关系。

20. 气泡图**

气泡图(bubble chart)是可用于展示三个变量之间关系的图形。绘制气泡图时将一个变量放在横轴,另一个变量放在纵轴,第三个变量则用气泡的大小来表示。气泡图的绘制方法如下:

  1. 横轴和纵轴:气泡图的横轴和纵轴通常分别表示两个变量,可以是数量变量或者其他连续型变量。这两个变量之间的关系可以通过气泡图的分布来展示。

  2. 气泡的大小:气泡图中的每个气泡代表一个数据点,其大小则表示第三个变量的值。这个第三个变量可以是数据点的重要性、频率、数量等。通常来说,气泡越大,代表的值就越大或者越重要。

  3. 颜色和标签:除了气泡的大小,有时候还可以用气泡的颜色来表示另外的变量,从而增加图表的信息量。此外,每个气泡通常会带有标签或者其他附加信息,帮助观察者理解每个数据点的具体含义。

21. 雷达图**

雷达图(也称为蜘蛛图或雷达图)是一种用于显示多个变量之间关系的图形方法。它通过将各变量的值表示为半径上的点到圆心的距离,来展示每个变量的大小,并且可以直观地比较多个样本或者个体在不同变量上的表现。下面是绘制雷达图的具体步骤和特点:

  1. 绘制基础图形

    • 首先,画一个圆形,这个圆形代表了雷达图的边界。
    • 将圆形等分成与变量个数相同的部分,得到相应数量的点,每个点对应一个变量。
  2. 确定变量的坐标轴

    • 每个变量被分配到一个圆周上的点,这些点之间通过直线相连,形成辐射状的线段,连接到圆心。
    • 每个点到圆心的距离代表了该变量的值大小,距离越远表示变量值越大。
  3. 绘制样本数据

    • 对于每个样本或个体,根据其各个变量的值,在相应的坐标上标出点。
    • 将这些点按照变量的顺序连接起来,形成一个封闭的多边形。这个多边形的形状和面积可以反映出该样本在各个变量上的表现和特征。
  4. 分析和比较

    • 雷达图可以用来比较多个样本之间在多个变量上的相似性或差异性。
    • 通过观察不同样本形成的多边形的形状、大小和位置,可以快速判断出各个样本在各个变量上的表现情况。
  5. 正负值处理

    • 如果变量的取值具有正负号,通常会将正负值分别表示在圆周的不同方向,以便完整展示所有可能的值范围。

雷达图在显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。

22. 散点图**

散点图(scatter plot)是一种直角坐标系中的图形表示方法,用来展示两个变量之间的关系。具体来说:

  1. 坐标轴:散点图的横坐标和纵坐标分别代表两个变量的值。每个数据点在图中以一个点的形式表示,这个点的位置由两个变量的数值决定。

  2. 观察关系:通过观察散点图,可以直观地看出两个变量之间的关系。如果数据点呈现出一定的趋势,例如线性关系(正相关或负相关)、曲线关系或者没有明显关系,这些特征都可以在散点图中清晰地表现出来。

  3. 点的密度:数据点的密度可以反映出数据分布的情况。密集的数据点可能表示两个变量之间存在较强的相关性,而稀疏的数据点则可能表示变量之间的关系不明显或者存在离群点。

  4. 异常值:散点图也有助于检测异常值(离群点),这些点可能是数据采集或者数据记录中的异常情况,对分析结果有影响。

  5. 变量类型:散点图适用于连续型变量,但也可以用来比较类别型变量的关系,例如用不同的符号或颜色表示不同类别的数据点。

23. 条形图**

条形图(bar chart)也叫柱形图,是用宽度相同的条形高度或长短来表示数据变动的图形,用于观察不同类别数据的多少或分布情况,有单式条形图和复式条形图等形式。绘制条形图时,各类别可以放在纵轴,也可以放在横轴。它的特点是利用宽度相同的矩形条来表示数据的大小,条的高度或长度反映数据的数值。以下是关于条形图的详细说明:

  1. 数据表示:条形图通常用于比较不同类别的数据,例如不同产品的销售量、不同地区的人口数量等。每个条形代表一个类别,其高度或长度直接对应该类别的数据值。

  2. 单式和复式条形图

    • 单式条形图:每个条形独立显示一类数据,常用于比较不同类别的数量或大小。
    • 复式条形图:将多个类别的数据在同一条形上进行比较,通过不同的颜色或图案来区分不同的子类别。这种形式有助于比较各个子类别在整体类别中的贡献或分布情况。
  3. 横轴和纵轴的应用

    • 在条形图中,可以选择将类别放置在横轴(x轴)或者纵轴(y轴)上,这取决于希望如何显示数据。一般来说,将类别放在横轴上,条形的高度或长度则表示该类别的数值。反之,将类别放在纵轴上,条形的宽度则表示数值大小。
    • 选择横轴或纵轴可以根据数据的结构和呈现的清晰度来决定,通常会选择使得数据的对比和解读更加直观和明确的方式。
  4. 比较和分析

    • 条形图适用于展示各个类别之间的差异、趋势和分布情况。通过比较条形的高度或长度,可以快速判断出哪些类别数据较大或较小,以及它们之间的相对大小关系。

24. 饼图**

饼图(pie chart)又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图用于表示一个样本(或总体)中各组成部分的数据在全部数据中的比重,主要用于结构性问题研究,如三产结构、消费结构、性别结构、年龄结构等。以下是关于饼图的详细解释和特点:

  1. 图形构成

    • 饼图以圆形为基础,将整个圆分成若干个扇形区域,每个扇形的面积大小表示各组成部分数据在整体中的比例。
    • 每个扇形的角度大小(或面积比例)通常与对应部分的数据量成正比。
  2. 数据表示

    • 每个扇形区域代表了数据的一个类别或组成部分,例如不同产品的销售额占比、不同地区的人口比例等。
    • 饼图的总面积是一个圆,表示整体数据的全部。
  3. 应用场景

    • 主要用于显示结构性问题的研究,如人口结构、产业结构、消费结构等。通过饼图可以清晰地看出各个部分在整体中的重要性或占比情况。
    • 饼图也适合用来比较少量类别的相对比例,但当类别过多或者比例差异不大时,可能不如其他图表(如条形图)更为清晰和易于理解。
  4. 注意事项

    • 饼图的可读性受到扇形区域的大小比例和标签的清晰度影响。确保每个扇形的标签清楚明了,以便观察者能够准确理解各部分的比例。
    • 饼图不适合展示具有时间序列或者复杂数据关系的情况,因为它无法展示数据的变化趋势或者多维度的比较。

25. 环形图**

饼图只能显示一个样本(或总体)各组成部分所占的比重,而环形图(donut)可以反映多个样本(或总体)之间的结构差异。环形图由若干个“空心圆”组成,每一个样本(或总体)用一个环来表示,样本(或总体)中的每一部分数据用环中的一段表示。环形图可用于结构比较研究,主要用于展示分类数据和顺序数据。以下是环形图的详细解释和特点:

  1. 图形构成

    • 环形图由一个或多个圆环组成,每个圆环代表一个样本(或总体)。
    • 每个圆环被分成若干个扇形区域,每个扇形区域表示样本中的一个组成部分(如类别、子集)。
  2. 数据表示

    • 环形图能够同时比较多个样本(或总体)之间的结构差异。每个样本的数据用环中的扇形区域表示,其面积或角度大小反映该部分在总体中的比例。
    • 每个环的总面积(或圆的面积)仍然代表了整体数据的全部。
  3. 应用场景

    • 环形图适合于展示分类数据和顺序数据之间的比较和结构差异。例如,不同产品在不同市场的销售比例、不同年龄段在不同区域的人口比例等。
    • 环形图也能够用于比较同一样本在不同时间点或不同条件下的数据分布变化,因为它可以显示多个环,每个环代表一个时间点或条件。
  4. 特点

    • 相比饼图,环形图可以更清晰地比较多个样本或总体之间的结构性差异,因为每个样本用一个独立的环来表示。
    • 环形图的空心设计有助于在保持总体结构比例的同时,提供更多的空间来显示标签或额外信息,增强图表的可读性和信息传达效果。
  5. 使用建议

    • 环形图在需要同时比较多个组成部分在不同样本或总体中的比例时特别有用。然而,对于较多类别或数据分布复杂的情况,仍需谨慎使用,以免造成信息过载或图表复杂度过高的问题。

26. 帕累托图**

帕累托图(Pareto)是以意大利经济学家V.Pareto的名字命名的,又称排列图或主次图。它是按照各类别数据的频数多少排序(即根据频率降序排列)绘制,并在同一张图中画出累积百分比。帕累托图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率;通过对条形的排序,容易看出哪类数据出现的多,哪类数据出现的少。因此,帕累托图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下的数据分散在大部分类别中。这两组经常被称为“至关重要的极少数”和“微不足道的大多数”。以下是关于帕累托图的详细解释和特点:

  1. 图形表示

    • 双直角坐标系:帕累托图通常采用双直角坐标系,其中左侧的纵坐标表示频数(数量),右侧的纵坐标表示频率(百分比)。
    • 条形排序:将各类别按照频数多少进行降序排列,并以条形的高度表示各类别的频数或频率。因此,条形从左到右依次递减。
  2. 累积百分比线

    • 帕累托图的重要特征是在同一图表中同时显示累积百分比线。这条曲线从左到右逐步上升,反映了各类别累积的频率或百分比。通常,这条线以累积百分比的形式显示在右侧纵轴上。
  3. 帕累托原则

    • 帕累托图体现了帕累托原则的核心思想,即数据的大部分重要信息(80%)通常集中在少数(20%)的类别或因素中。因此,帕累托图有助于确定应优先关注的关键因素或问题。
  4. 应用场景

    • 帕累托图广泛应用于质量管理、市场营销、经济学研究等领域。例如,在质量管理中,帕累托图可用于识别导致大部分问题的主要原因,从而优先处理并提高整体效率。
  5. 使用建议

    • 使用帕累托图时,应注意确保数据的准确性和可靠性,以便得出有效的结论和决策。
    • 同时,理解帕累托原则的应用限制和情境,确保在具体分析中考虑到特定环境和条件下的因素。
      和“微不足道的大多数”**。以下是关于帕累托图的详细解释和特点:
  6. 图形表示

    • 双直角坐标系:帕累托图通常采用双直角坐标系,其中左侧的纵坐标表示频数(数量),右侧的纵坐标表示频率(百分比)。
    • 条形排序:将各类别按照频数多少进行降序排列,并以条形的高度表示各类别的频数或频率。因此,条形从左到右依次递减。
  7. 累积百分比线

    • 帕累托图的重要特征是在同一图表中同时显示累积百分比线。这条曲线从左到右逐步上升,反映了各类别累积的频率或百分比。通常,这条线以累积百分比的形式显示在右侧纵轴上。
  8. 帕累托原则

    • 帕累托图体现了帕累托原则的核心思想,即数据的大部分重要信息(80%)通常集中在少数(20%)的类别或因素中。因此,帕累托图有助于确定应优先关注的关键因素或问题。
  9. 应用场景

    • 帕累托图广泛应用于质量管理、市场营销、经济学研究等领域。例如,在质量管理中,帕累托图可用于识别导致大部分问题的主要原因,从而优先处理并提高整体效率。
  10. 使用建议

    • 使用帕累托图时,应注意确保数据的准确性和可靠性,以便得出有效的结论和决策。
    • 同时,理解帕累托原则的应用限制和情境,确保在具体分析中考虑到特定环境和条件下的因素。
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值