#关于假设检验
假设检验(Hypothesis Testing),或者叫做显著性检验(Significance Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设:
H0:原假设或零假设(null hypothesis),即需要去验证的假设;一般首先认定原假设是正确的,然后根据显著性水平选择是接受还是拒绝原假设。
H1:备择假设(alternative hypothesis),一般是原假设的否命题;当原假设被拒绝时,默认接受备择假设。
如原假设是假设总体均值μ=μ0,则备择假设为总体均值μ≠μ0,检验的过程就是计算相应的统计量和显著性概率,来验证原假设应该被接受还是拒绝。
#什么是Z检验?
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。
##Z检验的步骤
###第一步:
建立零假设,即先假定两个平均数之间没有显著差异。
###第二步:
计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法。
1、如果检验一个样本平均数与一个已知的总体平均数的差异是否显著。其Z值计算公式为:
Z
=
X
‾
−
μ
0
S
n
Z = \frac{\overline{X}- \mu_{0}}{\frac{S}{\sqrt{n}}}
Z=nSX−μ0
其中:
x
‾
\overline{x}
x是检验样本的平均数;
μ
0
\mu _{_{0}}
μ0是已知总体的平均数;
S
S
S是样本的标准差;
n
n
n是样本容量。
2、如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:
Z
=
X
1
‾
−
X
2
‾
s
1
2
n
1
+
s
2
2
n
2
Z = \frac{\overline{X_{1}}- \overline{X_{2}}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}
Z=n1s12+n2s22X1−X2
其中:
X
1
‾
\overline{X_{1}}
X1,
X
2
‾
\overline{X_{2}}
X2是样本1,样本2的平均数;
s
1
2
s_{1}^{2}
s12,
s
2
2
s_{2}^{2}
s22是样本1,样本2的方差;
n
1
n_{1}
n1,
n
2
n_{2}
n2是样本1,样本2的容量。
###第三步:
比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如果z = ? 的值小于显著性p的值,那就拒绝零假设。
#什么是T检验
T检验是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异,属于参数假设检验,所以它适用的范围是数值型的数据。T检定改进了Z检验。在样本数量大(超过30等)时,可以应用Z检定,但Z检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用T检验。
T检验需要符合两个个条件——总体符合正态分布,n < 30。当n>30时用Z检验或者T检验均可,此时用Z检验较简单,计算与z检验相似。
#什么是卡方检验
x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。计数类的比较
#什么是F检验(方差分析)
方差分析(ANOVA),又叫F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。简单来说,就是求得F统计量(组间方差/组内方差),然后查F表,如果大于临界值(一般是0.05显著性水平下)则拒绝原假设,即组间具有显著性的差异。
$F = \frac{\frac{SSB}{M-1}}{\frac{SSW}{M*(N-1)}}$其中:
SSB:组间方差和
M:组数
SSW:组内方差和
N:样本数
实际中我们的主要问题是看组间是否有差异,ANOVA告诉我们组间的差异不仅要看组间的波动,还要看组内的波动,如果组内波动太大的话,很可能不存在差异,只是组内的数据乱而已,当然组间的波动越大,则组间的差异越大。
参考资料: