跟二项分布相关的统计检验方法

最新推荐文章于 2024-07-17 18:21:29 发布

JasonKQLin

最新推荐文章于 2024-07-17 18:21:29 发布

阅读量1.4w

点赞数 2

分类专栏：统计文章标签：二项分布统计检验

本文链接：https://blog.csdn.net/linkequa/article/details/83714464

版权

统计专栏收录该内容

35 篇文章 6 订阅

订阅专栏

假设检验原理

小概率事件在一次试验中几乎不可能发生。

多重假设检验原理

小概率事件在多次重复试验中必定会发生。

单样本二项式检验（binomial test）

问题：调查北京市所有人喜欢吃面食还是吃米饭（都不喜欢吃的忽略），在北京街头随机选了10个人（样本有点少），有8个喜欢吃面食，2个喜欢吃米饭。由此能否否定北京人喜欢吃面食的比例为p = 0.5呢？

建立零假设（null hypothesis）: 北京人喜欢吃面食的比例为p = 0.5，由此就可以得到一个二项式分布，Pr(X = k) = $\choose k$ $0.5^{k}0.5^{10-k}$ ，k = 0,1,2,…10。基于这个分布就可以算出Pr(X >= 8)的概率。

进行统计推断：容易计算，Pr(X >= 8)的概率为0.055，由对称性，Pr(X <= 2)的概率也为0.055。为了统计检验的严格性，一般要用双尾（单尾双尾如何选择）。这样在零假设的基础上，得到Pr(X = 8)或更极端的概率为0.11，这个概率不算小，无法推翻零假设。所以无法否定北京人喜欢吃面食的比例为50%这个结论。

符号检验（sign test）

此检验属于非参数检验的范畴，针对配对样本。此检验的核心是二项分布（或者有二项分布近似而来的正态分布）。

那么何时应选用符号检验？
1，有序的匹配数据。如两种治疗皮肤晒伤的药A，B，A涂左手，B涂右手，比较一下哪种药的效果更好。这时只关心A>B或A=B或A<B，并不关心A与B的差异有多大，应选用符号检验。
2，基数数据，但正态假设不成立，无法使用t检验来判断两组数的均值是否有显著差异（参数检验的统计效力要比非参数检验大，所以能用配对t检验的就不要用符号检验）。

建立零假设：以有序的匹配数据为例，零假设是药A与B的效果，即假设A>B和A<B的比例都为1/2(A=B对假设检验没有贡献，故去掉)。翻译成数学语言为：Pr(A>B) = 1/2。

进行统计推断：在Pr(A>B) = 1/2的基础上，判断实际的Pr(A>B)或更极端的概率。这就转化为一个单样本二项式检验了。对此检验概率的计算由下面两种方法：
1，精确方法
设m为A>B何A<B的总个数，n为A>B的个数，由二项分布的公式，
if n >= m/2，则 $\sum_{k=n}^{m}\binom{m}{k}(\frac{1}{2})^{m}$ ,
else, $\sum_{k=0}^{n}\binom{m}{k}(\frac{1}{2})^{m}$ 。
2，正态理论近似
值得注意的是，在npq>=5时，即这里的n*(1/2)*(1/2)>=5，即n>=20时，可以用正态分布来代替二项分布计算p value。
设m为A>B和A<B的总个数，n为A>B的个数，用来近似的正态分布的均值为mean=m/2，方差var=m/4，则
if n >= m/2，则 $\phi(\frac{n - m/2 - 0.5}{\sqrt{m/4}}))$ ,
else, $\phi(\frac{n - m/2 + 0.5}{\sqrt{m/4}})$ 。
Note: 上式中的加减0.5使用了连续性修正，使得二项分布更好地被正态分布所近似。