比率检验原理及R语言实现

最新推荐文章于 2024-07-25 07:57:37 发布

hetallian

最新推荐文章于 2024-07-25 07:57:37 发布

阅读量6.5k

点赞数 3

分类专栏：统计基础文章标签：统计学 fisher精确检验 r语言

本文链接：https://blog.csdn.net/hetallian/article/details/103845817

版权

总体比率的假设检验实际上是业界最常用也是最需要的检验，例如在ABtest中，检验两个实验的转化率是否有显著差异，则需要用到比率检验。本文介绍比率检验的原理，以及R语言的实现代码。

单总体比率的假设检验

前提条件：

样本取自两点分布 $\sim B(1,p)$
样本量 $n$ 很大，能够满足 $n p > 5$ 且 $n (1 - p) > 5$

记要检验的原假设为为 $H_0: p=p_0$ ,则样本比率 $\widetilde{\mathrm{p}}$ 服从方差为 $p (1 - p) / n$ 的正态分布，对应标准化的检验统计量近似服从 $N (0, 1)$ ：

$\mathrm{u}=\frac{\sqrt{\mathrm{n}}\left(\widetilde{\mathrm{p}}-\mathrm{p}_{0}\right)}{\sqrt{\mathrm{p}_0\left(1-\mathrm{p}_0\right)}}$

实际上，当样本量很少时，需要采用精确的比率检验，即直接使用二项分布来检验，具体实现见下文的R代码。

两个总体比率的假设检验

检验前提条件：

两总体互相独立
变量都取自两点分布，即两总体服从二项分布
两总体且每类的样本量满足大于5的要求，从而能用正态分布来近似

那么可知：

$\frac{\left(\widetilde{\mathrm{p}}_1-\widetilde{\mathrm{p}}_2\right)-\left(\mathrm{p}_1-\mathrm{p}_2\right)}{\frac{\mathrm{p}_1\left(1-\mathrm{p}_1\right)}{\mathrm{n}_1}+\frac{\mathrm{p}_2\left(1-\mathrm{p}_2\right)}{\mathrm{n}_2}} \approx \frac{\left(\widetilde{\mathrm{p}}_1-\widetilde{\mathrm{p}}_2\right)-\left(\mathrm{p}_1-\mathrm{p}_2\right)}{\frac{\mathbb{p}_1\left(1-\widetilde{\mathrm{p}}_1\right)}{\mathrm{n}_1}+\frac{\widetilde{\mathrm{p}}_2\left(1-\widetilde{\mathrm{p}}_2\right)}{\mathrm{n}_2}} \sim \mathrm{N}(0,1)$