“一旦你排除一切的不可能,剩下的不管多么难以置信,一定就是真相!”——《神探夏洛克》
统计分析实验中,通过假设检验可以为假设推断提供有力的证据支撑。
文章大纲:
- 假设检验的逻辑
- 基本概念辨析
- 假设检验的基本步骤
- 总结
- 假设检验的逻辑
假设检验的逻辑是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
基于小概率事件和反证思维。
即先随着统计问题的建立,可以引申出对应的原假设和备选假设,再用适当的统计方法,利用小概率原理,确定原假设是否成立。
具体来讲,首先假定该原假设正确,然后根据样本对原假设做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝原假设(接受备选假设),否则应接受原假设。
2. 基本概念辨析
通过假设检验,一方面验证假设是否成立,另一方面,还应在假设通过基础上求出对应的置信区间,体现推断统计的相对严谨。
2.1 置信区间(Confidence intervals)
是指由样本统计量所构造的总体参数的估计区间。即描述抽样估计的准确程度,能够被认可的误差范围。
2.2 置信水平(Confidence level)
即置信区间的可信水平(程度)。
2.3 显著水平(significance level)
是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
显著性水平=1-置信水平
2.4 样本量(sample size)
每组样本所含样本量的数量即为样本量,样本量的大小直接影响假设检验中采取的分布和估计结果的可靠性(置信区间)。
一般来讲样本量小于30即为小样本,大于等于30则可视为大样本。
如图所示,当样本量大于等于30时,无论总体服从何种分布,样本均满足中心极限定理(正态分布);而当样本量小于30时,只有在总体分布近似于正态分布时,样本分布才满足t分布,否则为其他分布(此处,不过多涉及)。
2.5 置信区间与置信水平、样本量的关系
在置信水平固定的情况下,样本量越多,置信区间越窄。
在样本量相同的情况下,置信水平越高,置信区间越宽。
2.6 置信区间的确定(与置信水平、显著性水平)
通常在显著性水平α已知的情况下,置信水平=100(1-α)%。
对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的