文章目录
在数据分析过程中, 一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。
实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计和假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。
- 区间估计
- 假设检验
假设检验有两种求解思路,分别是:
- 临界值法:计算拒绝域,比较检验统计量与拒绝域确定结果
- p值检验法:计算检验统计量得到 p p p 值,比较显著性水平与 p p p 值确定结果
1. 概念与求解思路
1.1 关键概念
假设检验是什么?
在一些情况下,我们会对总体的某些未知特性作出假设(如考试分数均值为75),假设检验根据样本,对提出的假设作出接受或拒绝的决策。
我们把作出的假设叫原假设,相对立的假设叫备择假设。由于我们根据样本来接受或拒绝原假设,必然有决策出错的可能性,有两种错误——
- 弃真:原假设为真,而我们拒绝原假设,这种错误称为一型错误
- 取伪:原假设为假,而我们接受原假设,这种错误称为二型错误
注意,当样本容量固定时,若降低一种错误的概率,则另一种错误的概率往往增大,只有提升样本容量才能同时降低两种错误的概率。在对两种错误都有限制的情况下,样本容量如何计算,下一篇笔记中会结合AB实验中样本容量的确定一并说明。
而在假设检验中,通常做显著性检验,即将一型错误的概率限制在显著性水平 α \alpha α 内,而不考虑二型错误。
我们会根据不同的问题选择不同的检验统计量,当检验统计量取某个区域C内的值时,我们拒绝原假设,则成区域C为拒绝域,C的边界称为临界点。
1.2 求解思路
假设检验的求解思路如下:
- 根据实际问题,提出原假设 H 0 H_0 H0 与备择假设 H 1 H_1 H1
- 给定显著性水平 α \alpha α 和样本容量 n n n
- 确定检验统计量与拒绝域的形式
- 按 P ( H 0 为 真 时 拒 绝 H 0 ) ≤ α P(H_0为真时拒绝H_0)\le \alpha P(H0为真时拒绝H0)≤α 求出拒绝域
- 取样,根据样本观测值接受或拒绝 H 0 H_0 H0
2. 双边检验与单边检验
同上一篇笔记一样,我们假设总体为正态分布,以方差已知,检验均值问题为例,求解双边与单边检验问题。
2.1 双边检验
某车间用一台包装机包装葡萄糖,袋装糖的净重是服从正态分布的随机变量。当机器正常时,其均值为0.5kg,标准差为0.015kg。某日开工后随机抽取它包装的葡萄糖9袋,称得净重为(kg):
0.497、0.506、0.518、0.524、0.498、0.511、0.520、0.515、0.512
问机器工作是否正常?(显著性水平为0.05)
按照上述思路,可求解如下——
- 提出原假设与备择假设
H 0 : μ = μ 0 = 0.5 H 1 : μ ≠ μ 0 (1) H_0:\mu=\mu_0=0.5 \\ H_1:\mu \ne\mu_0\tag{1} H0:μ=μ0=0.5H1:μ=μ0(1)
- 方差已知,使用 X ˉ − μ 0 σ / n ∼ N ( 0 , 1 ) \frac{\bar X-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1) σ/nXˉ−μ0∼N(0,1) 作为检验统计量,拒绝域形式为:(其中 k k k 为常数,这一拒绝域应理解为,若原假设为真,而样本均值与 μ 0 \mu_0 μ0 的差异较大,出现这种情况的概率较小,偏向于拒绝原假设)
∣ X ˉ − μ 0 σ / n ∣ ≥ k (2) |\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}|\ge k \tag{2} ∣σ/nXˉ−μ0∣≥k(2)
- 求解拒绝域如下
P ( H 0 为 真 时 拒 绝 H 0 ) = P μ 0 ( ∣ X ˉ − μ 0 σ / n ∣ ≥ k ) ≤ α = 0.05 (3) P(H_0为真时拒绝H_0)=P_{\mu_0}(|\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}|\ge k)\le \alpha=0.05 \tag{3} P(H0为真时拒绝H0)=Pμ0(∣σ/n