1. 基本概念
两组数据的差异可能来源于:(1) 分布差异。(2)抽样误差,见上图。其中由分布造成的差异被称作显著性差异。
统计假设检验是指事先对随机变量的参数或总体分布做出一个假设(Null Hypothesis, H0),然后根据样本信息决定是否拒绝原假设。
具体步骤如下。在原假设条件下,计算事件发生,即样本出现的概率(p value)。若概率小于显著性水平(α),则拒绝原假设;否则,接受原假设。
显著性检验的原假设是多组数据来自于同一个分布。
2. 种类
2.1 t检验
2.2 方差分析(ANOVA)
- 用途:检验多组(>=2)样本的均值的差异是否显著。
- 前提:随机;独立;正态;方差齐性。
(1) 总方差:SST = SSM + SSE
(2) 模型方差和
SSM 表示分布贡献的方差。nj 是水平 j 下的样本数。
(3) 误差平方和
SSE 表示抽样贡献的方差。
(4) F 值
s 是因素的水平个数。n 是样本总数。s - 1 分布自由度,n - s 误差自由度。自由度是抽样中能自由变化的数据个数。