t-检验
选用t-检验的基本前提假设是,两组样本都服从正态分布,且方差相同。设有两类(x, y)分别有
m
m
m个和
n
n
n个样本,它们的总体样本方差是:
s
p
2
=
(
n
−
1
)
S
x
2
+
(
m
−
1
)
S
y
2
m
+
n
−
2
s_p^2=\frac{(n-1)S_x^2+(m-1)S_y^2}{m+n-2}
sp2=m+n−2(n−1)Sx2+(m−1)Sy2
其中,
S
x
2
S_x^2
Sx2和
S
y
2
S_y^2
Sy2分别是两类样本各自的估计方差,t检验的统计量是:
t
=
x
ˉ
−
y
ˉ
s
p
1
n
+
1
m
t=\frac{\bar{x}-\bar{y}}{s_p\sqrt{\frac{1}{n}+\frac{1}{m}}}
t=spn1+m1xˉ−yˉ
它服从自由度为
n
+
m
−
2
n+m-2
n+m−2的t分布。
在实际问题中,首先计算出实际样本的t值,然后根据t分布可以查出在原假设下取得该t值的
p
p
p值,最后根据适当的显著性水平(如0.05)来决定是否拒绝原假设,推断两类样本的均值是否有显著差异。
t t t检验属于参数化检验方法,此类方法对数据分布有一定的假设,必要时需要首先检验样本分布是否符合该假设。
秩和检验
Wilcoxon秩和检验(rank-sum test),有时也叫Mann-Whitney U检验,是另一类非参数检验方法,它们不对数据分布作特殊假设,因而能适用于更复杂的数据分布情况。而当数据实际上满足正态分布时,用
t
t
t检验更有效。
秩和检验的做法是,首先将两类样本混合在一起,对所有样本按照所考察的特征从小到大排序。在两类样本中分别计算所得排序序号之和
T
1
T_1
T1和
T
2
T_2
T2,称作秩和。两类的样本数分别是
n
1
n_1
n1个和
n
2
n_2
n2。秩和检验的基本思想是,如果一类样本的秩和显著地比另一类小(或大),则两类样本在所考察的特征上有显著差异。秩和检验的统计量就是某一类(如第一类,秩和为
T
1
T_1
T1)的秩和
为了比较两类样本的秩和是否差异显著,需要比较T分布,当样本数目较大时,人们可以用正态分布来近似秩和
T
1
T_1
T1的分布。其中
μ
1
=
n
1
(
n
1
+
n
2
+
1
)
2
,
σ
1
=
n
1
n
2
(
n
1
+
n
2
+
1
)
12
\mu_1=\frac{n_1(n_1+n_2+1)}{2}, \sigma_1=\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}
μ1=2n1(n1+n2+1),σ1=12n1n2(n1+n2+1)
与 t t t检验相比,秩和检验没有对样本分布作任何假设,适用于更广泛的情况。另外, t t t检验的目的是检验两类样本的均值是否有系统差异,而秩和检验不但受两类分布的均值的影响,也受到分布形状的影响。
注:如无特殊说明,以上大部分内容为摘选自张学工所著《模式识别》。