假设检验中两类错误及最小样本量计算

最新推荐文章于 2024-09-06 12:31:02 发布

走过了笔尖

最新推荐文章于 2024-09-06 12:31:02 发布

阅读量9.3k

点赞数 18

分类专栏：统计学机器学习文章标签：数据挖掘机器学习算法

本文链接：https://blog.csdn.net/Queen0911/article/details/121718236

版权

机器学习同时被 2 个专栏收录

4 篇文章 1 订阅

订阅专栏

统计学

3 篇文章 1 订阅

订阅专栏

脚注: 以下内容均为个人总结，便于日后查阅。如有不对地方，还请及时指正。

案例：

在互联网等行业中，大家会对产品、排序模型、机制策略等模块不断迭代/创新，来提升整个App的用户体验。那么，怎样能够确认这些模块的迭代/创新是有效性的呢？

常见的就是创建一套AB实验系统，通过预先设立的实验生命周期，以及实验所需达到的最小样本量，结合严谨的去异常逻辑和统计学假设检验方法，最终获得一份实验报表，来衡量本次的迭代/创新是否置信有效。

通常会考察的效率指标如：用户下单时长是否降低？点击率(CTR)、用户交易总额(GMV)等是否有提升？下面我们就以一种新产品(E.G. 商品上展示点评分)是否提升点击率(CTR)为例，来复习关于假设检验的相关知识。

文章目录

一、如何确定原假设和备择假设？

一般把任意一个有关未知分布的假设称为统计假设或简称假设。以是否提升CTR为例，现将实验组CTR真实值(为理论值存在但未知)记作: $\mu_1$ , 对照组CTR真实值(为理论值存在但未知)记作: $\mu_2$ 。实验组指的是App上展示新产品的组，反之即为对照组。
第一个统计假设: $\mu_1 - \mu_2 = 0$ ，表示新产品对CTR没有提升，用 $H_0$ 表示；
第二个统计假设: $\mu_1 - \mu_2 =\delta(> 0)$ ，表示新产品对CTR有提升，用 $H_1$ 表示。

至于在两个假设中用哪一个作为原假设，哪一个作为备择假设，是根据具体的目的和要求而定。假如我们的目的是希望能够从子样观察值得到对某一个陈述的强有力的支持，那么我们就把这一陈述的否定作为原假设，而把陈述本身作为备择假设。原因是我们用一个子样无法去证实一个陈述，但用一个子样去否定一个陈述的理由就比较充分。上面这个例子，希望通过向访问App的部分用户展示新产品来获得更多的点击数，但新产品效果未知，因此不可能会让较多的用户参与测试，也就是说无法拥有充分多的数据。为此，我们取“新产品对CTR没有提升”作为原假设，并以“新产品对CTR有提升”作为备择假设。

此外，还有一种说法是“将不想轻易被拒绝的假设”作为原假设，如：此处App之前固有的产品是经历过大数据/长时间考验的产品形态，并不容易轻易被拒绝。所以，我们取“新产品对CTR没有提升”作为原假设。

「Note」在我们这个问题里，母体分布的类型为已知，仅有一个或几个参数为未知，这种仅涉及母体分布的未知参数的统计假设，称为参数假设。而另一种只能对未知分布函数的类型或者他的某些特征提取某种假设，称为非参数假设。

二、假设检验的两类错误: 拒真错误( $\alpha$ ) & 纳伪错误( $\beta$ )

一提到假设检验，经常听到就是这两类错误，但它们具体描述的是什么内容？又是怎么计算的呢？在描述这个问题之前，我们先从课本上检索一些标准术语做内容铺垫。

统计假设检验问题的一般提法是：在给定备择假设 $H_1$ 下对原假设 $H_0$ 作出判断，若拒绝原假设 $H_0$ ，那就意味着接受备择假设 $H_1$ ，否则就接受原假设 $H_0$ 。简单地说，假设检验问题就是要在原假设 $H_0$ 和备择假设 $H_1$ 中作出拒绝哪一个、接受哪一个的判断。这类假设检验问题常常简称为 $H_0$ 对 $H_1$ 的检验问题。

在 $H_0$ 对 $H_1$ 的检验问题中要作出某种判断，必须要从子样出发，制定一个法则，一旦子样的观察值 $x$ 确定后，利用我们所构造的法则作出判断: 拒绝 $H_0$ 还是拒绝 $H_1$ 。这种法则就称为 $H_0$ 对 $H_1$ 的一个检验法则，简称为一个检验。

这里所说的具体检验法则是：将子样空间 $\Phi$ 划分成两个互不相交的子集 $C$ 和 $C^*$ ，使得当子样的观察值 $\in C$ 时，我们拒绝原假设 $H_0$ ；若 $\in C^*$ 时，我们接受原假设 $H_0$ 。这样的划分构成一个准则，我们称这个子样空间的子集 $C$ 为检验的临界域(或拒绝域).

2.1 两类错误的定义

第一类错误: 当母体 $H_0$ 为真时，而子样的观察值落入 $C$ ，按给定的检验法则，我们应当拒绝 $H_0$ ，这种错误称为第一类错误。其发生的概率称为犯第一类错误的概率或称拒真概率，通常记作 $\alpha$ .
$P(拒绝H_0 | H_0为真) = \alpha$

E.G. $\in C | \mu_1-\mu_2=0) = \alpha$ .

第二类错误: 当母体 $H_1$ 为真时，而子样的观察值落入 $C^*$ ，按给定的检验法则，我们应当接受 $H_0$ ，这种错误称为第二类错误。其发生的概率称为犯第二类错误的概率或称纳伪概率，通常记作 $\beta$ .
$P(接受H_0 | H_1为真) = \beta$

E.G. $\in C^* | \mu_1-\mu_2=\delta>0) = \beta$ .
两类错误列联表

2.2 两类错误的几何理解

对于给定的一对 $H_0$ 和 $H_1$ ，总可找出许多临界域。所以总是希望能够找到某种临界域 $C$ ，使得犯两类错误的概率 $\alpha$ 与 $\beta$ 都很小。这里大家可能经常又听到一个结论：“在子样本容量 $n$ 固定时，要使 $\alpha$ 和 $\beta$ 都很小是不可能的”。这里埋藏了两个问题：

为什么说“固定子样本容量”情况下？
为什么找不到 $C$ ，使得 $\alpha$ 和 $\beta$ 都很小？

2.2.1 第二个疑问「公式推导视角」

两组母体CTR均值 $\mu_1, \mu_2$ ，方差 $\sigma_1^2, \sigma_2^2$ 均为理论值(存在但未知)，将上述公式表达的具体内容实例化：

通过试验，获得实验组和对照组两组样本的CTR
实验组： $\{x_1,x_2,\dots,x_{n1}\}$ ，共 $n_1$ 个
对照组： $\{y_1,y_2,\dots,y_{n2}\}$ ，共 $n_2$ 个
$\bar{x}$ : 表示实验组( $\mu_1$ )样本均值= $\frac{\Sigma_{i=1}^{n1}x_i}{n1}$

$\bar{y}$ : 表示对照组( $\mu_2$ )样本均值= $\frac{\Sigma_{i=1}^{n2}y_i}{n2}$

此处给出母体未知参数 $\mu \triangleq \mu_1-\mu_2$ 的估计 $\hat\mu = \bar{x}-\bar{y}$ ，其服从正态分布：
$\hat\mu = \bar{x}- \bar{y} \sim N(\mu_1-\mu_2, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{1}$

下面先来计算拒绝域 $C$ 和 接受域 $C^*$ :

借助上(1)式，即在 $H_0(\mu=0)$ 的情况下, 估计量 $\bar{x} - \bar{y}$ 服从如下分布，
$\hat\mu=\bar{x} - \bar{y} \sim N(0, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} })$
已知上述正态分布，将其转换为标准正态分布(Z统计量)：
$\frac{\bar{x} - \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)$
求解拒绝域 $C$ 如下:
$P(\frac{\bar{x}- \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \in C | \mu_1-\mu_2=0) = \alpha$
$\Rightarrow$
$P(|\frac{(\bar{x}- \bar{y})}{\sqrt{\frac{\sigma_1^2} {n_1}+\frac{\sigma_2^2}{n_2}}}| > \mu_{1-\alpha/2}) = \alpha$
$(-\infty, -\mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} ) \cup ( \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, +\infty)$
$C^* = [-\mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}]$

根据已设定好显著性水平 $\alpha$ 、及上面求解出接受域 $C^*$ , 下面计算犯第二类错误概率 $\beta$ ：

借助上式(1)，即在 $H_1(\mu=\delta)$ 的情况下, 估计量 $\bar{x} - \bar{y}$ 服从如下分布，
$\hat\mu=\bar{x} - \bar{y} \sim N(\delta, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{2}$
已知:
$P\{ \hat\mu \in C^* | \mu_1-\mu_2=\delta \} = \beta$
$\Rightarrow$
$P\{ |\bar{x}-\bar{y}| \leq \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta \} = \beta$
$\Rightarrow P\{ -\mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } \leq \bar{x}-\bar{y} \leq \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta \} = \beta$
$\Rightarrow P\{ -\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \} = \beta$
结合上式(2)，可知：
$\frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0,1)$
$\Rightarrow$ 对上式进行等价改写:
$\Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) - \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}$
$\Rightarrow\beta$ 对应的Z统计量区间为：
$Z_{\beta}\triangleq[-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}, \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}] \tag{3}$

对式(3)进行分析：
若样本量不变， $\alpha\downarrow$ , $\mu_{1-\alpha/2}\uparrow$ , 则 $Z_\beta\uparrow$ $\Rightarrow$ $\beta\uparrow$
若样本量不变， $\alpha\uparrow$ , $\mu_{1-\alpha/2}\downarrow$ , 则 $Z_\beta\downarrow$ $\Rightarrow$ $\beta\downarrow$
由此便解释：在控制样本容量的情况下， $\alpha, \beta$ 是此消彼长的关系。

2.2.2 第一个疑问「公式推导视角」

实际上，第一个疑问所延展出来的常听到的结论是：增大样本容量，可使得两类错误同时降低。就在我思考如何从数学公式的角度来解释第一个疑问时，我傻了。原因是犯第一类错误的概率，一般都是在假设检验前就已经给定(如, $\alpha=0.05$ ). 因此，关于如何从公式推导方向来说明这个同时缩小两类错误的结论，还没有想到好的方法，可暂时借用下方(从网上找到别人的)逻辑视角来解释。

2.2.3 第二个疑问「几何视角」

我们分别以 $H_0$ , $H_1$ 为真情况下，分别绘出两个分布曲线，详情如下图(忽略图片美观).

对下图做一些标记的解释：
(1) 图中在LOWER-LINE与UPPER-LINE两条线之间，对应的样本统计量取值为接受域 $C$
(2) 图中蓝色面积区域，表示： $H_1$ 为真时，样本落入接受域 $C^*$ 内，即为犯第二类错误的概率 $\beta$
(3) 图中红色面积区域，表示： $H_0$ 为真时，样本落入拒绝域 $C$ 内，即为犯第一类错误的概率 $\alpha$

2-error-distribute

集中观察上图中UPPLER_LINE这条直线：
(1)将这条线往右( $\rightarrow$ )移动，则 $\alpha\downarrow$ $\Rightarrow$ $\beta\uparrow$
(2)将这条线往左( $\leftarrow$ )移动，则 $\alpha\uparrow$ $\Rightarrow$ $\beta\downarrow$

2.2.4 两个疑问「逻辑理解视角」

转自链接：https://zhidao.baidu.com/question/1574553796509010100.html
(1)第一个疑问
由于拒真误差和纳伪误差都属于抽样误差，如果扩大了样本容量，那么抽样得到的值越接近于真实水平。换句话说，如果原假设是成立的，这个抽样算出来的值将非常接近真实的值，很大程度上不会出现在拒绝域，因而减小了弃真误差。取伪误差同理。

「Note」何为抽样误差？即因抽样的不合理导致出现和预期相违背的结论，比如第一类错误(拒真错误)，已知原假设是成立的，但是由于抽样的原因，例如抽样比较偏，赶巧抽到了边缘地带，抽样的结果算出来出现在拒绝域，因而拒绝了原假设。

(2)第二个疑问
从逻辑上理解的话，已知原假设成立，减小拒真错误，我的容错性更强，为了不让可能正确的值脱离接受域，我尽可能的扩大接受域，拒真确实小了。但当我的已知条件是原假设不成立的时候，抽样算出的错误值（纳伪错误）落入盲目扩大的“接受域”的可能性大大增强，即纳伪增大了。

2.3 $p$ 值是啥？

p值定义：由检验统计量的观察值得出的原假设 $H_0$ 可被拒绝的最小显著性水平。

换句话说，即以当前子样观察值为新拒绝域边界，来计算在当前新拒绝域下发生的概率 $p$ 。如果计算出来 $\lt \alpha$ ，说明当前子样观察值已经落入到给定拒绝域 $C$ 内(具体见下例).

假设app上开发新产品，上线运行10天AB实验，最终收集到连续10天：实验组日CTR( $x_{t_i}$ ) - 对照组日CTR( $y_{t_i}$ ):

$H_0: \mu_1 - \mu_2 = 0$ VS $H_1: \mu_1 - \mu_2 =\delta > 0$
假设已知： $\sigma_1^2=\sigma_2^2=0.125$ ， $n_1=n_2=10$ ， $\alpha=0.05$

观测值差为： $x_{t_i}-y_{t_i} = \{-0.001,0.03,0.01,0.02,0.03,0.04,0.03,0.01,0.02,0.001\}$

构造检验统计量( $H_0$ 成立)：
$z=\frac{\bar{x} - \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)$
带入数据得到z的观察值：
$z_0=\frac{\frac{\Sigma{x_{t_i}}}{10}- \frac{\Sigma{y_{t_i}}}{10}}{\sqrt{\frac{0.125}{10} + \frac{0.125}{10} }} = 2.403$
概率 $\geq z_0)=p(z \geq 2.403)=1-\Phi(2.403)=0.022$

不难发现：结合当前实验获取的子样本，计算出统计量 $z$ 的观察值 $z_0=2.403 > 1.96$ ，刚好落在了拒绝域内(如下图)。所以，应拒绝原假设 $H_0$ .
与此同时，计算出 $p$ 值 $= 0.022 < 0.05$ . 这就很快回到我们常见的“听说”：
(1)当 $\leq \alpha(如：0.05)$ 时，则在显著性水平为 $\alpha$ 下，拒绝 $H_0$ ;
(1)当 $\alpha(如：0.05)$ 时，则在显著性水平为 $\alpha$ 下，接受 $H_0$ .
p-value

「Note」这里简单提一下假设检验的原理，即为小概率事件不发生。

我们回想一下：在 $H_0$ 成立情况下，通过定义犯第一类错误的概率 $\alpha(=0.05)$ ，计算出拒绝域 $C$ 。那为什么可以通过子样观察值 $x$ 是否落入拒绝域 $C$ 就可以判断拒绝 or 接受 $H_0$ 呢？

因为我们认为当 $H_0$ 成立情况下，样本能够落入到拒绝域 $C$ 内的概率仅为0.05，这是一个小概率事件，认为在我们抽样子样时是不可能出现，一旦出现，我们甘愿冒着犯第一类错误的风险也要拒绝 $H_0$ .

三、计算实验所需的最小样本量

像比较大的互联网公司，它们的日浏览用户体量都比较大，所以几乎是不太关注实验所需的最小样本量，当然我个人觉得还是需要的，防范于未然嘛。但在很多类似消费频次比较低(如：酒店、旅游、保养车等App，该问题就比较突出，因为日UV体量不是很大，这个时候实验是否置信有效？首先得关注是否达到实验所需的最小样本量。

针对不同的指标，它所服从的分布也将不同，计算最小样本量的推导也会不同，最终得到的公式也会有所差异。所以，下面会用一个实例来做最小样本量计算过程演示，其它均可类似，方法相同。

以上文中“新产品是否能够提升CTR”为例，建立假设检验如下：

$H_0: \mu_1 - \mu_2 = 0$ VS $H_1: \mu_1 - \mu_2 =\delta > 0$

$\Rightarrow$ (推导过程基本在上方给出)借助上(4)式

$\Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) - \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}$

其中 $\delta>0$ , 所以(4)式中第二项接近于0，再利用标准正态分布 $1-\beta$ 分位数 $\mu_{1-\beta}$ , 可把上式改写为：

$-\mu_{1-\alpha/2}+\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} = \mu_{1-\beta}$

$\Rightarrow$ 结合实验组&对照组分流比例一致(即 $n_1=n_2$ )，则可计算出最小样本量为:
$\approx \frac{(\mu_{1-\frac{\alpha}{2}}+\mu_{1-\beta})^2*(\sigma_1^2 + \sigma_2^2)}{\delta^2}$

在实践中，上面公式中的每一项从何而来？

$\alpha$ : 一般设置为{0.01,0.05, 0.1}, 设置越大，拒绝域越宽，实验越容易显著。结合具体场景来设定。

$\beta$ : 一般设置为{0.1, 0.2}

$\sigma_1^2,\sigma_2^2$ : 公式中为母体方差，实践中我们均以过去某段时间样本方差来近似。这里有人会说，对照组方差可以近似，实验组还没有开始实验，我怎么知道它的样本方差呢？其实，因为这里分流比例一致，就会近似认为两组样本方差也相同。

$\delta$ : 这里 $\delta$ ，实际上是整个平台的一个预期，即认为较之前版本提升多少才认为达到目标。

其实有关假设检验内容，在学校学习的时候，对于一些结论就很记忆，但究其原因，其实细想的不多。正好一个同学前一段时间来问我相关的内容，我发现自己其实也忘了很多。抽点时间整理一下，以便日后查阅。

参考文献
[1]魏宗舒等.概率论与数理统计教程.高等教育出版社.
[2]茆时松,吕晓玲等.数理统计学.中国人民大学出版社(第2版).