背景知识
1. 统计分析的一些重要概念
统计学目标
研究总体的差异,从差异中获得关于总体的信息。
- 总体的同质性
个体能构成总体,必定有共性。例如成年男性这个总体里,个体的身高,体重会集中在一个区域,例如:成年男性身高的均值为175cm。 - 总体的变异
个体与个体之间并不会完全相同,而是存在个体差异。这种差异能为我们提供一些关于这个总体的信息。例如:成年男性身高的方差为3.5cm。这个量向我们提供了关于总体的身高特征的一些更有意义的信息。
重要概念:总体与样本
- 一般而言,总体是难以完全统计的。但是可以通过总体中的部分样本的样本统计量来推测出总体参数。
- 样本统计量和总体参数的计算基本一致,不同的名称是想强调他们一个对应的是样本,一个对应的是总体。
- 通过样本推测总体是一个非常重要且核心的统计学内容,重点关心的是总体!!对样本进行统计分析不是最终目的,而是一种推测出总体参数的手段。
统计分析
- 统计描述
- 定义:
用统计量来描述一批数据,以获得更多关于此数据的直观信息。(均值,方差,中位数…) - 集中趋势(同质性)
均值,中位数… - 离散趋势(变异)
方差(分散度),标准差…
- 定义:
- 统计推断
- 假设检验
- 假设检验是内曼-皮尔逊提出的。内曼认为,要想让显著性检验有意义,至少要有两个可能的假设。被检验的假设为“零假设”,其他假设为“备择假设”。此处p用于检测零假设是否成立。
- 显著性检验是费希尔提出的。目前使用的多种显著性检验方法都可以在其专著《研究工作者的统计方法》中找到。其中的核心概念是p值(判断显著性的概率),通过显著性检验可以获得三个结论:p小于通常0.01,宣布检验出一个影响因素;p大于通常0.2,影响因素即使存在也微小,不能通过当前实验检测出来;p介于两者之间,需进一步设计实验验证。当然,任何统计方法几乎都有不适用的情况。
- 假设检验
2. 正态分布
概率密度函数
-
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π1e−2σ2(x−μ)2
-
对于连续变量(变量的取值范围是一个连续的区间)而言,区间概率才具有实际意义,点概率恒等于0。
-
区间概率:概率密度函数在区间内积分。(曲线下面积)
均值和方差
- 影响概率密度函数的位置和开口大小:
- 均值: 概率密度函数取最大值处,对称轴的位置。
- 方差( σ 2 \sigma^2 σ2): 概率密度函数的分散程度,越大,说明变量越分散,对应的函数形状越低胖。
- 标准差( σ \sigma σ)
标准化(z-score)
-
把任意正态分布转换为均值为0,方差为1的标准正态分布。
z = x − μ σ z=\frac{x-\mu}{\sigma} z=σx−μ
其中:
μ = 1 m ∑ i = 1 m x i \mu=\frac{1}{m}\sum_{i=1}^mx_i μ=m1∑i=1mxi
σ 2 = 1 m − 1 ∑ i = 1 m ( x i − μ ) 2 \sigma^2=\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu)^2 σ2=m−11∑i=1m(xi−μ)2
(见下文:计算样本方差时为什么是除以(m-1))
-
标准化以方便统一计算:
P ( x 1 < X < x 2 ) = P ( Z < x 2 − μ σ ) − P ( Z < x 1 − μ σ ) P(x_1<X<x_2)=P(Z<\frac{x_2-\mu}{\sigma}) -P(Z<\frac{x_1-\mu}{\sigma}) P(x1<X<x2)=P(Z<σx2−μ)−P(Z<σx1−μ)
(右边两项的值查表可知)
68%( 1 σ 1\sigma 1σ) → \rightarrow → 95%( 2 σ 2\sigma 2σ) → \rightarrow → 99.7%( 3 σ 3\sigma 3σ)
μ ± 1 σ \mu\pm1\sigma μ±1σ :
- 积分占68%的面积.
- P ( μ − σ < X < μ + σ ) = 0.68 P(\mu-\sigma<X<\mu+\sigma)=0.68 P(μ−σ<X<μ+σ)=0.68.
- 68%的样本值集中在离均值一个标准差之内的范围里.
μ ± 2 σ \mu\pm2\sigma μ±2σ 和 μ ± 3 σ \mu\pm3\sigma μ±3σ 同上。
3. 抽样分布
中心极限定理(central limit theorem)
无论总体的原始分布是什么,只要从总体中抽样出足够多的样本(一般
n
>
30
n>30
n>30),则其计算出的样本均值(是一种样本统计量)满足正态分布。
且如果总体的均值为
μ
\mu
μ, 标准差为
σ
\sigma
σ,则由抽样样本计算出的样本均值
X
ˉ
\bar{X}
Xˉ 服从
N
(
μ
,
σ
n
)
N(\mu,\frac{\sigma}{\sqrt{n}})
N(μ,nσ)。
X X X: 总体。
μ , σ \mu,\sigma μ,σ: 总体的均值和标准差。
n n n: 一个样本中个体的数目。
X ˉ \bar{X} Xˉ: 样本均值。
S S S: 样本标准差。
E ( X ) = μ E(X)=\mu E(X)=μ
E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ ( 注意:这里是样本均值的均值)
D ( X ˉ ) = σ n D(\bar{X})=\frac{\sigma}{\sqrt{n}} D(Xˉ)=nσ ( 注意:这里是样本均值的标准差。我们只关心样本统计量的分布,即抽样分布,而不关心样本的分布。)
例子:计算样本方差时为什么是除以(n-1)
-
目标:
样本的均值和标准差 → \rightarrow → 总体的均值和标准差 -
重要估计原则之一:
无偏:样本估计值在总体真实值的上下波动。 -
除以n的问题:
由 ∑ i = 1 n ( x i − x ˉ ) 2 < ∑ i = 1 n ( x i − μ ) 2 \sum_{i=1}^n(x_i-\bar{x})^2<\sum_{i=1}^n(x_i-\mu)^2 ∑i=1n(xi−xˉ)2<∑i=1n(xi−μ)2 (推导得出,见下)
可推导出:
1 n ∑ i = 1 n ( x i − x ˉ ) 2 < 1 n ∑ i = 1 n ( x i − μ ) 2 \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2<\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 n1∑i=1n(xi−xˉ)2<n1∑i=1n(xi−μ)2
违背了无偏的原则,为了纠正,通过计算有:
∑ i = 1 n ( x i − x ˉ ) 2 = n − 1 n ∑ i = 1 n ( x i − μ ) 2 \sum_{i=1}^n(x_i-\bar{x})^2=\frac{n-1}{n}\sum_{i=1}^n(x_i-\mu)^2 ∑i=1n(xi−xˉ)2=nn−1∑i=1n(xi−μ)2
因此,求样本方差时:
S = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2 S=n−11∑i=1n(xi−xˉ)2
或者,
S = 1 n ∑ i = 1 n ( x i − μ ) 2 S=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 S=n1∑i=1n(xi−μ)2
(样本均值和总体均值所引起的不同)
假设检验
有了基本的关于总体 vs. 样本,正态分布,抽样分布等概念以后,假设检验理解起来会更加容易。
目的
为了验证一个猜想,我们可以提出一个假设。计算在这个假设成立的前提下,我们观察到的发生的事件的概率。若概率很小,说明基于现实发生的事件,这个假设很可能不成立,拒绝这个假设;若概率较大,则不能拒绝这个假设。(类似反证法)
例如:
发生事件:我有一枚硬币,投掷10次,1次正面朝上。
猜想:这枚硬币不均匀,正反面概率不相等。
零假设:硬币均匀,正反面概率相等。
计算:在硬币均匀的情况下,投掷10次, 1次或0次正面向上的概率。
通过计算得到P = P(投掷10次,1次正面朝上) + P(投掷10次,0次正面朝上)
p value:发生的事件和更罕见的事件的概率和
分析:P和检验标准
α
\alpha
α 比较,以决定是否拒绝零假设。
过程
1. 建立检验假设
- 零假设( H 0 H_0 H0):“没有差异” “无效” “相互独立”
- 备择假设( H 1 H_1 H1):
2. 确定检验标准
- 定义小概率事件的阈值: α \alpha α
- 概率小于 α \alpha α 的事件被认为不可能发生。
3. 选择适合的检验统计量
- 大样本, σ \sigma σ已知: z − t e s t z-test z−test
- 样本数目较小,
σ
\sigma
σ未知:
t
−
t
e
s
t
t-test
t−test
(具体分析见后文)
4. 推断
- 由计算出的score求得相应的p value
- 对比p value和检验标准 α \alpha α
- 拒绝 or 接受零假设
p value
1. 意义
- p value并不是一个点概率,而是一个区间概率。因为对于连续变量,点概率为0。
- 代表了 H 0 H_0 H0成立的情况下,获得现在和更极端样本的概率
- 代表了 H 0 H_0 H0成立的情况下,发生现在观测到的事件和更罕见的事件的概率和
- 例子:
p value: 硬币均匀的情况下( H 0 H_0 H0),投掷10次,正面朝上的次数小于等于1的概率。
2. 用法( 检验标准 α \alpha α )
- p value越小, H 0 H_0 H0成立的情况下,越难获得现在和更极端的样本。说明基于已有的数据, H 0 H_0 H0更有可能不成立,倾向于拒绝 H 0 H_0 H0。
- α \alpha α: 小概率事件的概率阈值,检验标准。若p value比 α \alpha α 小,说明 H 0 H_0 H0 成立的情况下,获得现在和更极端的样本是一个小概率事件,基本不可能发生。但是现在发生了,反推说明 H 0 H_0 H0可能不成立。
错误
1. 第一类错误
若把零假设 H 0 H_0 H0 假设成立看作是阴性(“没有差异” “无效” “相互独立”),备择假设 H 1 H_1 H1看作是阳性,则:
- 第一类错误:False Positive
H 0 H_0 H0 原本成立,但是因为抽样获得的样本和更极端的样本,在 H 0 H_0 H0 对应的分布下计算出的概率较低,我们错误地拒绝了 H 0 H_0 H0 。 - α \alpha α :若拒绝 H 0 H_0 H0 假设,犯错第一类错误的最大允许概率。
2. 第二类错误
- 第二类错误: False Negative
H 0 H_0 H0 原本不成立,但是因为真实概率分布和 H 0 H_0 H0的概率分布有重叠,导致从真实分布中抽样获得的样本和更极端的样本,离零假设分布的距离比较近,计算出的概率高,因此我们错误地接受了 H 0 H_0 H0 。
3. 图解(检验功效)
- 检验功效(power):
- 1 − β 1-\beta 1−β
- 不犯第二类错误的概率
- 真实概率分布与零假设对应的概率分布重叠得越少,越不容易犯第二类错误,检验功效越大。
4. 减少错误
-
调整 α \alpha α :
可减少一类错误,但同时会增加另外一类错误发生的概率。 -
增加样本量:
-
可同时减小第一、二类错误
-
原理: D ( X ˉ ) = S n D(\bar{X})=\frac{S}{\sqrt{n}} D(Xˉ)=nS (标准误:样本统计量的标准差,可以通过 【样本标准差 ÷ \div ÷样本的个体数目开根】获得)
增大样本量 n 可以减少样本统计量的分散度。若 H 0 H_0 H0 不成立,那么分散度的减小意味着使真实分布和 H 0 H_0 H0分布的重叠部分变小。
-
检验统计量
背景
-
本质是样本统计量,用来对原假设和备择假设做出决策。
-
是对总体参数的点估计量:
基于总体的一个样本计算得到的。若抽样 k 个样本,每个样本都会产生一个样本统计量,这些统计量(点)会服从一个抽样分布。 -
点估计量不能直接作为检验的统计量,只有将其标准化后,才能用于度量它与原假设的参数值之间的差异程度。
-
把估计值(样本统计量)和假设值(零假设对应的总体参数)之间的差异标准化。
如果样本真的是从零假设所对应的分布中抽样得到,那么样本统计量应该服从 N ( μ , σ / n ) N(\mu,\ \sigma/\sqrt{n}) N(μ, σ/n)。
标准化后得到的score可以用于表示样本统计量和这个应该服从的分布的差异。差异越大,说明样本统计量很大可能并不符合 N ( μ , σ / n ) N(\mu,\ \sigma/\sqrt{n}) N(μ, σ/n)。也就可以推出,样本可能并不是从假设分布中抽样得出,即假设可能不成立。
1. z-test
-
用标准z变换来标准化点估计量和假设值之间的差异
-
Z = 样 本 统 计 量 − 假 设 分 布 的 对 应 统 计 量 标 准 误 Z=\frac{样本统计量-假设分布的对应统计量}{标准误} Z=标准误样本统计量−假设分布的对应统计量
-
z变换适用于已知总体的标准差 σ \sigma σ。可用总体的标准差来估计样本统计量的标准误。
-
例如:
Z = X ˉ − μ σ / n Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} Z=σ/nXˉ−μ
2. t-test
- 用t检验公式来标准化点估计量和假设值之间的差异
- t = 样 本 统 计 量 − 假 设 分 布 的 对 应 统 计 量 标 准 误 t=\frac{样本统计量-假设分布的对应统计量}{标准误} t=标准误样本统计量−假设分布的对应统计量
- t变换适用于未知总体的标准差 σ \sigma σ。此时,可用样本的标准差S来估计样本统计量的标准误。
- 当样本量较小时(一个样本包含的个体数 < < < 30),用 t 检验可以缓解小数据量带来的分散度比实际偏大的问题。(t检验使用自由度来平衡,自由度小时,对应的只是抽样分布会更胖,以匹配小样本计算出的标准误偏大的问题)
- 当样本量足够大时,由样本计算得到的样本统计量的分散度会与真实的抽样分布相当,因此直接用标准 z 变换即可,不用再使用 t 的自由度去平衡小样本带来的误差。
- 例如:
t = X ˉ − μ S / n t=\frac{\bar{X}-\mu}{S/\sqrt{n}} t=S/nXˉ−μ
comparison
应用
配对样本
- 配对的两个样本,两个样本中的个体一一对应。
- 零假设:差的均值服从均值为0的正态分布。
- 样本统计量:两个样本的对应个体的差的均值
-
d i = s a m p l e i , a f t e r − s a m p l e i , b e f o r e d_i=sample_{i,after}-sample_{i,before} di=samplei,after−samplei,before
-
d ˉ = 1 n ∑ i = 1 n d i \bar{d}=\frac{1}{n}\sum_{i=1}^n d_i dˉ=n1∑i=1ndi (关心的统计量)
-
d ˉ \bar{d} dˉ的标准差: S / n S/\sqrt{n} S/n
-
t = X ˉ − μ S / n = X ˉ S / n ∼ t ( n − 1 ) t=\frac{\bar{X}-\mu}{S/\sqrt{n}}=\frac{\bar{X}}{S/\sqrt{n}}\sim t(n-1) t=S/nXˉ−μ=S/nXˉ∼t(n−1)
-
非配对样本
单体检验
- 单一样本的假设检验
- 检验单一样本的样本统计量与期望值是否相符
- 计算样本均值和标准误,检验样本均值和期望的抽样分布间的差异
- t = X ˉ − μ S / n ∼ t ( n − 1 ) t=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1) t=S/nXˉ−μ∼t(n−1)
独立样本:
- 独立从两个分布中抽样出来的两个样本,数量不用匹配。
- 检验两个样本对应的两个抽样分布的期望是否相同。
等方差
- 两个样本的标准差相等。
- 自由度为
n
1
+
n
2
−
2
n_1+n_2-2
n1+n2−2
异方差
- 两个样本的标准差不同
双侧检验 vs 单侧检验
- 双侧检验:无先验知识,更保守,完全反映数据的差异。
- 单侧检验:有先验知识,已知数据走向。
Reference
浅显易懂的统计学讲解:https://www.zhihu.com/people/xiao-he-29-78-48/posts?page=1
z&t: https://www.jianshu.com/p/c3cffe4a4e84
z&t 图: https://blog.csdn.net/tianguiyuyu/article/details/80789856
https://zhuanlan.zhihu.com/p/145473420
单体与双体检验: http://www.algorithmdog.com/%E7%BB%9F%E8%AE%A1%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C%E4%B8%80t%E6%A3%80%E9%AA%8C
https://www.jianshu.com/p/46d9b111dffc