从头到尾理解假设检验

最新推荐文章于 2023-06-02 09:56:02 发布

Iris__HU

最新推荐文章于 2023-06-02 09:56:02 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签：统计学

本文链接：https://blog.csdn.net/huxiyan450/article/details/106840579

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

假设检验

背景知识

1. 统计分析的一些重要概念

统计学目标

研究总体的差异，从差异中获得关于总体的信息。

总体的同质性
个体能构成总体，必定有共性。例如成年男性这个总体里，个体的身高，体重会集中在一个区域，例如：成年男性身高的均值为175cm。
总体的变异
个体与个体之间并不会完全相同，而是存在个体差异。这种差异能为我们提供一些关于这个总体的信息。例如：成年男性身高的方差为3.5cm。这个量向我们提供了关于总体的身高特征的一些更有意义的信息。

重要概念：总体与样本

一般而言，总体是难以完全统计的。但是可以通过总体中的部分样本的样本统计量来推测出总体参数。
样本统计量和总体参数的计算基本一致，不同的名称是想强调他们一个对应的是样本，一个对应的是总体。
通过样本推测总体是一个非常重要且核心的统计学内容，重点关心的是总体！！对样本进行统计分析不是最终目的，而是一种推测出总体参数的手段。

统计分析

统计描述
- 定义：
  用统计量来描述一批数据，以获得更多关于此数据的直观信息。（均值，方差，中位数…）
- 集中趋势（同质性）
  均值，中位数…
- 离散趋势（变异）
  方差（分散度），标准差…
统计推断
- 假设检验
  - 假设检验是内曼-皮尔逊提出的。内曼认为，要想让显著性检验有意义，至少要有两个可能的假设。被检验的假设为“零假设”，其他假设为“备择假设”。此处p用于检测零假设是否成立。
  - 显著性检验是费希尔提出的。目前使用的多种显著性检验方法都可以在其专著《研究工作者的统计方法》中找到。其中的核心概念是p值（判断显著性的概率），通过显著性检验可以获得三个结论：p小于通常0.01，宣布检验出一个影响因素；p大于通常0.2，影响因素即使存在也微小，不能通过当前实验检测出来；p介于两者之间，需进一步设计实验验证。当然，任何统计方法几乎都有不适用的情况。

2. 正态分布

概率密度函数

$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
对于连续变量（变量的取值范围是一个连续的区间）而言，区间概率才具有实际意义，点概率恒等于0。
区间概率：概率密度函数在区间内积分。（曲线下面积）

均值和方差

影响概率密度函数的位置和开口大小：
- 均值：概率密度函数取最大值处，对称轴的位置。
- 方差( $\sigma^2$ )：概率密度函数的分散程度，越大，说明变量越分散，对应的函数形状越低胖。
- 标准差( $\sigma$ )

标准化(z-score)

把任意正态分布转换为均值为0，方差为1的标准正态分布。

$z=\frac{x-\mu}{\sigma}$

其中：

$\mu=\frac{1}{m}\sum_{i=1}^mx_i$

$\sigma^2=\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu)^2$

(见下文：计算样本方差时为什么是除以（m-1）)
标准化以方便统一计算：

$P(x_1<X<x_2)=P(Z<\frac{x_2-\mu}{\sigma}) -P(Z<\frac{x_1-\mu}{\sigma})$

(右边两项的值查表可知)

68%( $1\sigma$ ) $\rightarrow$ 95%( $2\sigma$ ) $\rightarrow$ 99.7%( $3\sigma$ )

$\mu\pm1\sigma$ :

积分占68%的面积.
$P(\mu-\sigma<X<\mu+\sigma)=0.68$ .
68%的样本值集中在离均值一个标准差之内的范围里.

$\mu\pm2\sigma$ 和 $\mu\pm3\sigma$ 同上。

3. 抽样分布

中心极限定理（central limit theorem)

无论总体的原始分布是什么，只要从总体中抽样出足够多的样本（一般 $n > 30$ ），则其计算出的样本均值（是一种样本统计量）满足正态分布。
且如果总体的均值为 $\mu$ ，标准差为 $\sigma$ ，则由抽样样本计算出的样本均值 $\bar{X}$ 服从 $N(\mu,\frac{\sigma}{\sqrt{n}})$ 。

$X$ : 总体。

$\mu，\sigma$ ：总体的均值和标准差。

$n$ : 一个样本中个体的数目。

$\bar{X}$ ：样本均值。

$S$ ：样本标准差。

$E(X)=\mu$

$E(\bar{X})=\mu$ ( 注意：这里是样本均值的均值）

$D(\bar{X})=\frac{\sigma}{\sqrt{n}}$ ( 注意：这里是样本均值的标准差。我们只关心样本统计量的分布，即抽样分布，而不关心样本的分布。)

例子：计算样本方差时为什么是除以（n-1）

目标：
样本的均值和标准差 $\rightarrow$ 总体的均值和标准差
重要估计原则之一：
无偏：样本估计值在总体真实值的上下波动。
除以n的问题：

由 $\sum_{i=1}^n(x_i-\bar{x})^2<\sum_{i=1}^n(x_i-\mu)^2$ (推导得出，见下)

可推导出：

$\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2<\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2$

违背了无偏的原则，为了纠正，通过计算有：

$\sum_{i=1}^n(x_i-\bar{x})^2=\frac{n-1}{n}\sum_{i=1}^n(x_i-\mu)^2$

因此，求样本方差时：

$S=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$

或者，

$S=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2$

(样本均值和总体均值所引起的不同)

具体推导过程请参考这里

假设检验

有了基本的关于总体 vs. 样本，正态分布，抽样分布等概念以后，假设检验理解起来会更加容易。

目的

为了验证一个猜想，我们可以提出一个假设。计算在这个假设成立的前提下，我们观察到的发生的事件的概率。若概率很小，说明基于现实发生的事件，这个假设很可能不成立，拒绝这个假设；若概率较大，则不能拒绝这个假设。（类似反证法）
例如：
发生事件：我有一枚硬币，投掷10次，1次正面朝上。
猜想：这枚硬币不均匀，正反面概率不相等。
零假设：硬币均匀，正反面概率相等。
计算：在硬币均匀的情况下，投掷10次, 1次或0次正面向上的概率。
通过计算得到P = P(投掷10次，1次正面朝上) + P(投掷10次，0次正面朝上)
p value：发生的事件和更罕见的事件的概率和
分析：P和检验标准 $\alpha$ 比较，以决定是否拒绝零假设。

过程

1. 建立检验假设

零假设( $H_0$ )：“没有差异” “无效” “相互独立”
备择假设( $H_1$ )：

2. 确定检验标准

定义小概率事件的阈值： $\alpha$
概率小于 $\alpha$ 的事件被认为不可能发生。

3. 选择适合的检验统计量

大样本， $\sigma$ 已知： $z - t e s t$
样本数目较小， $\sigma$ 未知： $t - t e s t$
（具体分析见后文）

4. 推断

由计算出的score求得相应的p value
对比p value和检验标准 $\alpha$
拒绝 or 接受零假设

p value

1. 意义

p value并不是一个点概率，而是一个区间概率。因为对于连续变量，点概率为0。
代表了 $H_0$ 成立的情况下，获得现在和更极端样本的概率
代表了 $H_0$ 成立的情况下，发生现在观测到的事件和更罕见的事件的概率和
例子：
p value：硬币均匀的情况下（ $H_0$ ），投掷10次，正面朝上的次数小于等于1的概率。

2. 用法（检验标准 $\alpha$ ）

p value越小， $H_0$ 成立的情况下，越难获得现在和更极端的样本。说明基于已有的数据， $H_0$ 更有可能不成立，倾向于拒绝 $H_0$ 。
$\alpha$ ：小概率事件的概率阈值，检验标准。若p value比 $\alpha$ 小，说明 $H_0$ 成立的情况下，获得现在和更极端的样本是一个小概率事件，基本不可能发生。但是现在发生了，反推说明 $H_0$ 可能不成立。

错误

1. 第一类错误

若把零假设 $H_0$ 假设成立看作是阴性（“没有差异” “无效” “相互独立”），备择假设 $H_1$ 看作是阳性，则：

第一类错误：False Positive
$H_0$ 原本成立，但是因为抽样获得的样本和更极端的样本，在 $H_0$ 对应的分布下计算出的概率较低，我们错误地拒绝了 $H_0$ 。
$\alpha$ ：若拒绝 $H_0$ 假设，犯错第一类错误的最大允许概率。

2. 第二类错误

第二类错误： False Negative
$H_0$ 原本不成立，但是因为真实概率分布和 $H_0$ 的概率分布有重叠，导致从真实分布中抽样获得的样本和更极端的样本，离零假设分布的距离比较近，计算出的概率高，因此我们错误地接受了 $H_0$ 。

3. 图解（检验功效）

检验功效（power）:
- $1-\beta$
- 不犯第二类错误的概率
- 真实概率分布与零假设对应的概率分布重叠得越少，越不容易犯第二类错误，检验功效越大。

4. 减少错误

调整 $\alpha$ ：
可减少一类错误，但同时会增加另外一类错误发生的概率。
增加样本量：
- 可同时减小第一、二类错误
- 原理： $D(\bar{X})=\frac{S}{\sqrt{n}}$ （标准误：样本统计量的标准差，可以通过【样本标准差 $\div$ 样本的个体数目开根】获得）
  
  增大样本量 n 可以减少样本统计量的分散度。若 $H_0$ 不成立，那么分散度的减小意味着使真实分布和 $H_0$ 分布的重叠部分变小。

检验统计量

背景

本质是样本统计量，用来对原假设和备择假设做出决策。
是对总体参数的点估计量：
基于总体的一个样本计算得到的。若抽样 k 个样本，每个样本都会产生一个样本统计量，这些统计量（点）会服从一个抽样分布。
点估计量不能直接作为检验的统计量，只有将其标准化后，才能用于度量它与原假设的参数值之间的差异程度。
把估计值（样本统计量）和假设值（零假设对应的总体参数）之间的差异标准化。
如果样本真的是从零假设所对应的分布中抽样得到，那么样本统计量应该服从 $N(\mu,\ \sigma/\sqrt{n})$ 。
标准化后得到的score可以用于表示样本统计量和这个应该服从的分布的差异。差异越大，说明样本统计量很大可能并不符合 $N(\mu,\ \sigma/\sqrt{n})$ 。也就可以推出，样本可能并不是从假设分布中抽样得出，即假设可能不成立。

1. z-test

用标准z变换来标准化点估计量和假设值之间的差异
$Z=\frac{样本统计量-假设分布的对应统计量}{标准误}$
z变换适用于已知总体的标准差 $\sigma$ 。可用总体的标准差来估计样本统计量的标准误。
例如：
$Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$

2. t-test

用t检验公式来标准化点估计量和假设值之间的差异
$t=\frac{样本统计量-假设分布的对应统计量}{标准误}$
t变换适用于未知总体的标准差 $\sigma$ 。此时，可用样本的标准差S来估计样本统计量的标准误。
当样本量较小时（一个样本包含的个体数 $<$ 30）,用 t 检验可以缓解小数据量带来的分散度比实际偏大的问题。（t检验使用自由度来平衡，自由度小时，对应的只是抽样分布会更胖，以匹配小样本计算出的标准误偏大的问题）
当样本量足够大时，由样本计算得到的样本统计量的分散度会与真实的抽样分布相当，因此直接用标准 z 变换即可，不用再使用 t 的自由度去平衡小样本带来的误差。
例如：
$t=\frac{\bar{X}-\mu}{S/\sqrt{n}}$

comparison

应用

配对样本

配对的两个样本，两个样本中的个体一一对应。
零假设：差的均值服从均值为0的正态分布。
样本统计量：两个样本的对应个体的差的均值
- $d_i=sample_{i,after}-sample_{i,before}$
- $\bar{d}=\frac{1}{n}\sum_{i=1}^n d_i$ （关心的统计量）
- $\bar{d}$ 的标准差： $S/\sqrt{n}$
- $t=\frac{\bar{X}-\mu}{S/\sqrt{n}}=\frac{\bar{X}}{S/\sqrt{n}}\sim t(n-1)$

非配对样本

单体检验

单一样本的假设检验
检验单一样本的样本统计量与期望值是否相符
计算样本均值和标准误，检验样本均值和期望的抽样分布间的差异
$t=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$

独立样本：

独立从两个分布中抽样出来的两个样本，数量不用匹配。
检验两个样本对应的两个抽样分布的期望是否相同。

等方差

两个样本的标准差相等。
自由度为 $n_1+n_2-2$

异方差

两个样本的标准差不同

双侧检验 vs 单侧检验

双侧检验：无先验知识，更保守，完全反映数据的差异。
单侧检验：有先验知识，已知数据走向。

Reference

浅显易懂的统计学讲解：https://www.zhihu.com/people/xiao-he-29-78-48/posts?page=1
z&t: https://www.jianshu.com/p/c3cffe4a4e84
z&t 图： https://blog.csdn.net/tianguiyuyu/article/details/80789856
https://zhuanlan.zhihu.com/p/145473420
单体与双体检验： http://www.algorithmdog.com/%E7%BB%9F%E8%AE%A1%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C%E4%B8%80t%E6%A3%80%E9%AA%8C
https://www.jianshu.com/p/46d9b111dffc

Iris__HU

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从头到尾理解假设检验

p-valuet-testz-testx2x^2x2在统计学领域不是一个概念，常被混用。1. 显著性检验是费希尔提出的。目前使用的多种显著性检验方法都可以在其专著《研究工作者的统计方法》中找到。其中的核心概念是p值（判断显著性的概率），通过显著性检验可以获得三个结论：p小于通常0.01，宣布检验出一个影响因素；p大于通常0.2，影响因素即使存在也微小，不能通过当前实验检测出来；p介于两者之间，需进一步设计实验验证。当然，任何统计方法几乎都有不适用的情况。2. 假设检验是内曼-皮尔逊提出的。内曼认为，
复制链接

扫一扫