两组样本检验:
1、曼慧特尼U检验(Mann-Whitney检验)
应用于:没有配对的两个独立样本
原理:
首先,假定两组样本无差异,
然后,将两组数据进行混合,并对混合后的数组(总共有N个样本)排序,最小的秩列为1,最大的列为N,值相同时,秩相同(注:如果有多个相同的样本,则先将这几个样本进行排序,然后将这几个样本的秩相加求平均值,最终这几个样本秩为平均值,以此类推)。
其次,再将两组样本按原来的样本进行拆开,将两组样本的秩求和,
最后,比较两组样本的秩累和,如果这两组秩的和差距比较大,则会得到较小的p值,则认为这两组间有显著差异。
计算步骤如下:
第一步:排序
第二步:求秩和W1、W2
第三步:计算曼惠尼特U检验统计量,n1为第一个样本的总数,n2为第二个样本的总数:
U
1
=
n
1
n
2
+
n
1
(
n
1
+
1
)
2
−
W
1
U_{1}=n_{1} n_{2}+\frac{n_{1}\left(n_{1}+1\right)}{2}-W_{1}
U1=n1n2+2n1(n1+1)−W1
U
2
=
n
1
n
2
+
n
2
(
n
2
+
1
)
2
−
W
2
U_{2}=n_{1} n_{2}+\frac{n_{2}\left(n_{2}+1\right)}{2}-W_{2}
U2=n1n2+2n2(n2+1)−W2
选择U1和U2的较小者和临界值Uα比较,当U < Ua 时,拒绝H0,接受H1。
在原假设为真的情况下,随机变量U的均值和方差分别为:
E
(
U
)
=
n
1
n
2
2
D
(
U
)
=
n
1
n
2
(
n
1
+
n
2
+
1
)
12
E(U)=\frac{n_{1} n_{2}}{2} \quad D(U)=\frac{n_{1} n_{2}\left(n_{1}+n_{2}+1\right)}{12}
E(U)=2n1n2D(U)=12n1n2(n1+n2+1)
2、Wilcoxon符号秩检验(分为配对样本检验、独立样本检验)
(1)配对样本
一个对象,两种处理方法;
一个对象,放在两个地点
两种方法按照同一个人配成一对
(2)独立样本
检测的是两个独立组,在等级变量上/或非正态变量上的差异
两个独立组,只要其中有一组不符合正态分布都需要选择Wilcoxon检验
男生组和女生组为两个独立组
中国人与美国人为两个独立组
Wilcoxon符号秩和检验要求:必须是两个组;而且是独立组
多组样本比较分析:
非正态总体
1、Kruskal-Wallis (H 检验)
应用于:不需要知道原始数据的分布和总体参数
原理:
首先,假定两组样本无差异,
然后,将两组数据进行混合,并对混合后的数组(总共有N个样本)排序,最小的秩列为1,最大的列为N,值相同时,秩相同(注:如果有多个相同的样本,则先将这几个样本进行排序,然后将这几个样本的秩相加求平均值,最终这几个样本秩为平均值,以此类推)。
其次,计算统计量:
K
W
=
12
N
∗
(
N
+
1
)
∑
i
=
1
k
R
i
2
n
i
−
3
(
n
+
1
)
K W=\frac{12}{N *(N+1)} \sum_{i=1}^{k} \frac{R_{i}^{2}}{n_{i}}-3(n+1)
KW=N∗(N+1)12i=1∑kniRi2−3(n+1)
如果样本中存在结值(数据秩相同的),则需要加入校正系数
C
=
1
−
∑
(
τ
i
3
−
τ
)
n
3
−
n
K
W
c
=
K
W
C
\begin{gathered} C=1-\frac{\sum\left(\tau_{i}^{3}-\tau\right)}{n^{3}-n} \\ K W_{c}=\frac{K W}{C} \end{gathered}
C=1−n3−n∑(τi3−τ)KWc=CKW最后,将统计量与卡方表中对比
正态总体:
2、方差分析(ANOVA)
假定条件
1、多个样本来自的多个总体是正态分布的。方差分析运用的是F分布,只有服从正态分布的总体才适用F分布进行假设检验,否则,检验结果是没有意义的。
2、单个因素的不同水平分组的方差要求齐性。前面介绍了,方差分析假设的是单个因素的不同分组数据之间没有区别,换一种说法就是单个因素的不同分组对于数据总体没有影响,也就是说不同分组的数据都来自同一个数据总体,方差相同。
基于以上两个假设,方差分析才能将方差的差异性推断转换成对两个以上总体均值的差异性推断。
事后多重比较
经过方差分析以后,如果检验结果显示多个水平之间存在显著性差异,那么还需要进行事后多重比较。因为方差分析结果的显著只能说明两个以上总体的均值之间存在显著性,但是不能分析出具体是那几个总体的均值不相等,所以还需要进行两两总体均值的比较。
方差分析步骤
1、方差齐性检验;
2、计算各项平方和与自由度;
3、列出方差分析表,进行F检验,并依据F值对应的p值做出判断;
4、事后多重比较;