试验数据误差的统计假设检验

最新推荐文章于 2023-06-01 15:24:48 发布

lcg_magic

最新推荐文章于 2023-06-01 15:24:48 发布

阅读量3.7k

点赞数 3

分类专栏： # 统计学文章标签：检验

本文链接：https://blog.csdn.net/PursueLuo/article/details/124127787

版权

统计学专栏收录该内容

7 篇文章

订阅专栏

文章目录

1 随机误差的检验
2 系统误差的检验
3 异常值的检验
【参考】
【修改记录】

1 随机误差的检验

随机误差的检验包含 $\mathcal{X}^2$ 检验和 $F$ 检验。

1.1 $\mathcal{X}^2$ 检验

$\mathcal{X}^2$ 检验（ $\mathcal{X}^2$ -test）是在试验数据的总体方差 $\sigma^2$ 已知的情况下，对试验数据的随机误差或精密度进行检验的一种方法。

检验步骤：

计算统计量 $\mathcal{X}^2$

若试验数据 $x_1, x_2, \dots, x_n$ 服从正态分布，则
$\mathcal{X}^2 = \frac{(n-1)s^2}{\sigma^2}$
服从自由度 $d f = n - 1$ 的 $\mathcal{X}^2$ 分布。

查临界值 $\mathcal{X}_{\alpha}^2(df)$
其中 $\alpha$ 是显著性水平，一般取 0.01 或 0.05，表示有显著差异的概率。
检验
检验分为双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验。
- 双侧（尾）检验（two-sided/tailed test）
若
$\mathcal{X}_{\left(1-\frac{\alpha}{2}\right)}^2 < \mathcal{X}^2 < \mathcal{X}_{\frac{\alpha}{2}}^2,$
则判断两方差无显著差异，否则有显著差异。
- 单侧（尾）检验（one-sided/tailed test）
  单侧检验又分为左侧检验和右侧检验。
  - 左侧（尾）检验
  若
  $\mathcal{X}_{\left(1-\alpha \right)}^2 < \mathcal{X}^2,$
  则判断该方差与原总体方差无显著减小，否则有显著减小。
  - 右侧（尾）检验
  若
  $\mathcal{X}^2 < \mathcal{X}_{\alpha}^2,$
  则判断该方差与原总体方差无显著增大，否则有显著增大。

1.2 $F$ 检验

$F$ 检验（ $F$ -test）是对两组具有正态分布的试验数据之间的精密度进行比较的一种方法。

检验步骤：

计算统计量

设有两组试验数据 $x_1^{(1)},x_2^{(1)}, \dots, x_{n_1}^{(1)}$ 和 $x_1^{(2)},x_2^{(2)},\dots,x_{n_2}^{(2)}$ 都服从正态分布，样本方差分别为 $s_1^2$ 和 $s_2^2$ ，则
$\frac{s_1^2}{s_2^2}$
服从 $F$ 分布，其第一自由度为 $df_1 = (n_1-1)$ ，第二自由度为 $df_2 = (n_2-1)$ 。

查临界值
给定显著水平 $\alpha$ ， $df_1=(n_1-1)$ ， $df_2=(n_2-1)$ ，查 $F$ 分布表可得临界值。
检验
检验分为双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验。
- 双侧（尾）检验（two-sided/tailed test）
若
$F_{\left(1-\frac{\alpha}{2} \right)}(df_1,df_2) < F < F_{\frac{\alpha}{2}(df_1, df_2)},$
则判断两方差无显著差异，否则有显著差异。
- 单侧（尾）检验
  单侧检验又分为左侧检验和右侧检验。
  - 左侧（尾）检验（one-sided/tailed test）
  若
  $F_{\left(1-\alpha \right)}(df_1,df_2) < F,$
  则判断方差 1 比方差 2 无显著减小，否则有显著减小。
  - 右侧（尾）检验
  若
  $F_{\alpha}(df_1,df_2),$
  则判断方差 1 比方差 2 无显著增大，否则有显著增大。

1.3 小结

检验方法	参数检验
$\mathcal{X}^2$ 检验	是
$F$ 检验	是

2 系统误差的检验

系统误差的检验方法包括 $t$ 检验法和秩和检验法。

2.1 $t$ 检验法

2.1.1 平均值与给定值比较

目的：检验服从正态分布数据的算术平均值是否与给定值有显著差异。
检验步骤：

计算统计量

$\frac{\bar{x}-\mu_0}{s} \sqrt{n}$
服从自由度 $d f = n - 1$ 的 $t$ 分布。其中 $\mu_0$ 是给定值。

查临界值
给定显著水平 $\alpha$ ，查 $t$ 分布表可得临界值。
检验
检验分为双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验。
- 双侧（尾）检验（two-sided/tailed test）
若
$\lvert t \rvert < t_{\frac{\alpha}{2}},$
则判断该平均值与给定值无显著差异，否则有显著差异。
- 单侧（尾）检验
  单侧检验又分为左侧检验和右侧检验。
  - 左侧（尾）检验（one-sided/tailed test）
  若
  $\; \lvert t \rvert < t_{\alpha},$
  则判断该平均值与给定值无显著减小，否则有显著减小。
  - 右侧（尾）检验
  若
  $\; t < t_{\alpha},$
  则判断该平均值与给定值无显著增大，否则有显著增大。

2.1.2 两个平均值的比较

目的：判断两组服从正态分布数据的算术平均值有无显著差异。
检验步骤：

计算统计量

两组数据的方差无显著差异时
$\frac{\bar{x_1}-\bar{x_2}}{s} \sqrt{\frac{n_1n_2}{n_1+n_2}}$
服从自由度 $df=(n_1+n_2-2)$ 的 $t$ 分布。
合并标准差 $s$ 定义为
$\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}.$

两组数据的精密度或方差有显著差异时
$\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$
服从 $t$ 分布，其自由度为
$\frac{(s_1^2/n_1+s_2^2/n_2)^2}{\frac{(s_1^2/n_1)^2}{(n_1+1)}+\frac{(s_2^2/n_2)^2}{(n_2+1)}} - 2.$

检验
检验分为双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验。
- 双侧（尾）检验（two-sided/tailed test）
若
$\lvert t \rvert < t_{\frac{\alpha}{2}},$
则判断两平均值无显著差异，否则有显著差异。
- 单侧（尾）检验
  单侧检验又分为左侧检验和右侧检验。
  - 左侧（尾）检验（one-sided/tailed test）
  若
  $\; \lvert t \rvert < t_{\alpha},$
  则判断平均值 1 较平均值 2 无显著减小，否则有显著减小。
  - 右侧（尾）检验
  若
  $\; t < t_{\alpha},$
  则判断平均值 1 较平均值 2 无显著增大，否则有显著增大。

2.1.3 成对数据的比较

目的：试验数据是成对出现，判断两种方法、仪器、人员的测定结果之间是否存在系统误差。

计算统计量

$\frac{\bar{d} - d_0}{s_d}\sqrt{n}$
服从自由度为 $d f = (n - 1)$ 的 $t$ 分布。
其中 $d_0$ 为零或其他指定值， $\bar{d}$ 为成对试验值之差的算术平均值， $s_d$ 是 $n$ 对试验值之差值的样本标准差。
$\bar{d} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})}{n} = \frac{\sum_{i=1}^{n}d_i}{n}, \;s_d = \sqrt{\frac{\sum_{i=1}^{n}(d_i-\bar{d})^2}{n-1}}.$

$t$ 检验

若
$\lvert t \rvert < t_{\frac{\alpha}{2}},$
则成对数据之间不存在显著的系统误差，否则两组数据之间存在显著的系统误差。

2.2 秩和检验法

目的：两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等，不要求数据具有正态分布。
方法：

设有两组试验数据，相互独立， $n_1$ 、 $n_2$ 分别是两组数据的个数，总是假定 $n_1\leq n_2$ 。
将这个试验数据混在一起，按从小到大的次序排列。
每个试验值在序列中的次序叫作该值的秩（rank）。
将属于第 1 组数据的秩相加，其和记为 $R_1$ 。
查秩和临界值表
根据显著性水平 $\alpha$ 和 $n_1$ 、 $n_2$ ，可查得 $R_1$ 的下限 $T_1$ 和上限 $T_2$ 。
检验：
- 如果 $R_1 < T_1$ 或 $R_1 > T_2$ ，则认为两组数据有显著差异，另一组数据有系统误差。
- 如果 $T_1 < R_1 < T_2$ ，则两组数据无显著差异，另一组数据也无系统误差。

2.3 小结

检验方法	参数检验
$t$ 检验	是
秩和检验	否

3 异常值的检验

异常值，也称可疑数据、离群值。
一般处理原则为：

在试验过程中，若发现异常数据，应停止试验，分析原因，及时纠正错误。
试验结束后，在分析试验结果时，如发现异常数据，则应先找出产生差异的原因，再对其进行取舍。
在分析试验结果时，如不清楚产生异常值的确切原因，则应对数据进行统计处理；若数据较少，则可重做一组数据。
对于舍去的数据，在试验报告中应注明舍去的原因或所选用的统计方法。

常见的异常值检验方法有：拉依达检验法、格拉布斯检验法、狄克逊检验法。

3.1 拉依达检验法

内容

可疑数据 $x_p$ ，若
$\left \lvert x_p - \bar{x} \right \rvert > 3s \;(\text{or } 2s),$
则应将该试验值剔除。

说明

$3 s$ 相当于显著水平 $\alpha = 0.01$ ， $2 s$ 相当于显著水平 $\alpha = 0.05$ 。
计算平均值 $\bar{x}$ 及标准差 $s$ 时，应包括 $x_p$ 在内。
可疑数据应逐一检验，不能同时检验多个数据。首先检验偏差最大的数。
剔除一个数后，如果还要检验下一个数，应重新计算 $\bar{x}$ 以及 $s$ 。
方法简单，无需查表。
该检验法适用于试验次数较多或要求不高时。
$3 s$ 为界时，要求 $n > 10$ ； $2 s$ 为界时，要求 $n > 5$ 。

3.2 格拉布斯检验法

内容

可疑数据 $x_p$ ，若
$\lvert d_p \rvert = \lvert x_p - \bar{x} \rvert > G_{(\alpha, n)}s,$
则应将该值剔除。
其中， $G_{(\alpha,n)}$ 是格拉布斯（Grubbs）检验临界值。

说明

计算平均值 $\bar{x}$ 及标准差 $s$ 时，应包括可疑值 $x_p$ 在内。
可疑数据应逐一检验，不能同时检验多个数据。首先检验偏差最大的数。
剔除一个数后，如果还要检验下一个数，应重新计算 $\bar{x}$ 和 $s$ 。
能适用于试验数据较少时。
格拉布斯准则也可以用于检验两个数据偏小，或两个数据偏大的情况。

3.3 狄克逊检验法

狄克逊（Dixon）检验法分单侧检验和双侧检验。

单侧情况

将 $n$ 个试验数据按从小到大的顺序排列
$x_1 \leq x_2 \leq \dots \leq x_n.$
如果有异常值存在，必然出现在两端，即 $x_1$ 或 $x_n$ 。
计算出统计量 $D$ 和 $D^{'}$ （ $D$ 用于检测高端离群值， $D^{'}$ 用于检测低端离群值）。
查单侧临界值 $D_{1-\alpha}(n)$ 。
检验

检验 $x_n$ 时，当 $D_{1-\alpha}(n)$ 时，可剔除 $x_n$ 。
检验 $x_1$ 时，当 $>D_{1-\alpha}(n)$ 时，可剔除 $x_1$ 。

双侧情况

计算 $D$ 和 $D^{'}$ 。
查双侧临界值 $\tilde{D}_{1-\alpha}(n)$ 。
检验
- $D > D^{'}$ ， $\tilde{D}_{1-\alpha}(n)$ 判断 $x_n$ 为异常值。
- $D^{'} > D$ ， $\tilde{D}_{1-\alpha}(n)$ 判断 $x_1$ 为异常值。

说明

使用于试验数据较少是的检验，计算量较小。
单侧检验时，可疑数据应逐一检验，不能同时检验多个数据。
剔除一个数后，如果还要检验下一个数，应重新排序。

Dixon 检验法

样本量（ $n$ ）	检验高端离群值	检验低端离群值
3~7	$\frac{x_n - x_{n-1}}{x_n - x_1}$	$\frac{x_2 - x_1}{x_n - x_1}$
8~10	$\frac{x_n - x_{n-1}}{x_n - x_2}$	$\frac{x_2 - x_1}{x_{n-1} - x_1}$
11~13	$\frac{x_n - x_{n-2}}{x_n - x_2}$	$\frac{x_3 - x_1}{x_{n-1} - x_1}$
13~30	$\frac{x_n - x_{n-2}}{x_n - x_3}$	$\frac{x_3 - x_1}{x_{n-2} - x_1}$