KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结

最新推荐文章于 2024-06-22 16:12:53 发布

pit_man

最新推荐文章于 2024-06-22 16:12:53 发布

阅读量7.2w

点赞数 35

分类专栏：算法文章标签： KS检验统计学

本文链接：https://blog.csdn.net/ljzology/article/details/80407704

版权

算法专栏收录该内容

5 篇文章 2 订阅

订阅专栏

1. KS检验

Kolmogorov-Smirnov检验是基于累计分布函数的，用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。

单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。

两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感，所以成为比较两样本的最有用且最常用的非参数方法之一。

检验统计量为： $D_{n}=\sup _{x}|F_{n}(x)-F(x)|$ ，其中Fn（x）为观察序列值，F（x）为理论序列值或另一观察序列值

1.1 步骤

（1）提出假设H0：Fn（x）=F(x)

（2）计算样本累计频率与理论分布累计概率的绝对差，令最大的绝对差为Dn；Dn=max{[Fn(x) - F(x)]}

（3）用样本容量n和显著水平a查出临界值Dna；

（4）如果Dn<Dna，则认为拟合是满意的。

1.2 实例

单样本KS检验

两样本KS检验

2. t检验

T检验，也称student t检验，主要用户样本含量较小，总体标准差未知的正态分布。

t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。

t检验分为单总体检验和双总体检验。

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

单总体t检验统计量为：

其中

为样本平均数，

为样本标准偏差，n为样本数。该统计量t在零假说：μ=μ0为真的条件下服从 自由度为n−1的t分布。

2.1 步骤

（1）建立假设、确定假设水准α；

（2）计算检验统计量t；

（3）查相应界值表，确定P值，下结论；

3. f检验

T检验和F检验的由来：为了确定从样本中的统计结果推论到总体时所犯错的概率。

F检验又叫做联合假设检验，也称方差比率检验、方差齐性检验。是由英国统计学家Fisher提出。

通过比较两组数据的方差，以确定他们的精密度是否有显著性差异。

计算步骤：

样本标准偏差的平方，即：

S *S = ∑(x-μ) '2 /(n-1)

两组数据就能得到两个S 2值

F=S' 2/S' 2

然后计算的F值与查表得到的F表值比较，如果

F < F 表表明两组数据没有显著差异；

F ≥ F 表表明两组数据存在显著差异。

4. Grubbs检验

4.1 概述

一组测量数据中，如果个别数据偏离平均值很远，那么称这个数据为“可疑值”。用格拉布斯法判断，能将“可疑值”从测量数据中剔除。

4.2 步骤

（1）计算平均值μ和标准差σ；

（2）计算“可疑值”的G值：

Gi=（xi-μ）/σ，其中i为可疑值编号。

（3）定出检测水平α，那么置信概率p=1-α（α越小越严格）；根据p值和测量次数n查格拉布斯表得到临界值Gp（n）；

（4）比较Gi和临界值，如果Gi>Gp(n)，则判为异常；

4.3 狄克逊检验

用于一组测定数据的一致性检验和提出异常数值的检验，适用于检出一个或多个异常值。

当最大值和最小值同时为可疑值，或在最大（小）值同侧同时出现两个可疑值时，此方法不理想。

检测方法如下：

将n次测定的数据从小到大排列为x1,x2,...,xn-1,xn。x1为最小可疑值，xn为最大可疑值，然后按照下列相应公式计算统计量r：

根据n次测定和显著性水平从表中查得的临界值，如果将统计量r大于临界值，则判为异常，可以剔除。重复检测，知道不再检出其他异常值为止。

5. 卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

5.1 步骤

（1）提出原假设H0：总体X的分布函数F(x)；

（2）将总体x的取值范围分成k个互不相交的小区间A1-Ak；

（3）把落入第i个区间Ai的样本的个数记做fi，成为组频数，f1+f2+f3+...+fk = n；

（4）当H0为真时，根据假设的总体理论分布，可算出总体X的值落入第i个小区间Ai的概率pi，于是n*pi就是落入第i个小区间Ai的样本值的理论频数；

（5）当H0为真时，n次试验中样本落入第i个小区间Ai的频率fi/n与概率pi应该很接近。基于这种思想，皮尔逊引入检测统计量

，在H0假设成立的情况下服从自由度为k-1的卡方分布。

5.2 检验方法

独立样本四格表

自由度为1（k=2），自由度=(行数 - 1) * (列数 - 1)

假设两个分类变量X和Y，值域分别为（x1, x2）和（y1, y2）,其样本频数列联表为：

	y1	y2	总计
x1	a	b	a+b
x2	c	d	c+d
总计	a+c	b+d	a+b+c+d

对 V = 1 ，卡方分布的临界概率是：

卡方分布临界值

x2值描述了自变量与因变量之间的相关程度：x2值越大，相关程度也越大，所以很自然的可以利用x2值来做降维，保留相关程度大的变量。

6. 对比

6.1 KS检验与卡方检验

相同点：都采用实际频数和期望频数只差进行检验

不同点：①卡方检验主要用于类别数据，而KS检验主要用于有计量单位的连续和定量数据。

②卡方检验也可以用于定量数据，但必须先将数据分组才能获得实际的观测频数，而KS检验能直接对原始数据进行检验，所以它对数据的利用比较完整。

6.2 KS检验的优势与劣势

作为一种非参数方法，具有稳健性
不依赖均值的位置
对尺度化不敏感
适用范围广（t检验仅局限于正态分布，当数据偏离正态分布太多时，t检验会失效）
比卡方更有效
如果数据缺失服从正态分布，则没有t检验敏感（有效）

pit_man

关注

35
点赞
踩
309

收藏

觉得还不错? 一键收藏
打赏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录