跟二项分布相关的统计检验方法

假设检验原理

小概率事件在一次试验中几乎不可能发生。

多重假设检验原理

小概率事件在多次重复试验中必定会发生。

单样本二项式检验(binomial test)

问题:调查北京市所有人喜欢吃面食还是吃米饭(都不喜欢吃的忽略),在北京街头随机选了10个人(样本有点少),有8个喜欢吃面食,2个喜欢吃米饭。由此能否否定北京人喜欢吃面食的比例为p = 0.5呢?

建立零假设(null hypothesis): 北京人喜欢吃面食的比例为p = 0.5,由此就可以得到一个二项式分布,Pr(X = k) = ( 10 k ) 10 \choose k (k10) 0. 5 k 0. 5 10 − k 0.5^{k}0.5^{10-k} 0.5k0.510k,k = 0,1,2,…10。基于这个分布就可以算出Pr(X >= 8)的概率。

进行统计推断:容易计算,Pr(X >= 8)的概率为0.055,由对称性,Pr(X <= 2)的概率也为0.055。为了统计检验的严格性,一般要用双尾(单尾双尾如何选择)。这样在零假设的基础上,得到Pr(X = 8)或更极端的概率为0.11,这个概率不算小,无法推翻零假设。所以无法否定北京人喜欢吃面食的比例为50%这个结论。

符号检验(sign test)

此检验属于非参数检验的范畴,针对配对样本。此检验的核心是二项分布(或者有二项分布近似而来的正态分布)。

那么何时应选用符号检验?
1,有序的匹配数据。如两种治疗皮肤晒伤的药A,B,A涂左手,B涂右手,比较一下哪种药的效果更好。这时只关心A>B或A=B或A<B,并不关心A与B的差异有多大,应选用符号检验。
2,基数数据,但正态假设不成立,无法使用t检验来判断两组数的均值是否有显著差异(参数检验的统计效力要比非参数检验大,所以能用配对t检验的就不要用符号检验)。

建立零假设:以有序的匹配数据为例,零假设是药A与B的效果,即假设A>B和A<B的比例都为1/2(A=B对假设检验没有贡献,故去掉)。翻译成数学语言为:Pr(A>B) = 1/2。

进行统计推断:在Pr(A>B) = 1/2的基础上,判断实际的Pr(A>B)或更极端的概率。这就转化为一个单样本二项式检验了。对此检验概率的计算由下面两种方法:
1,精确方法
设m为A>B何A<B的总个数,n为A>B的个数,由二项分布的公式,
if n >= m/2,则 p = 2 ∗ ∑ k = n m ( m k ) ( 1 2 ) m p = 2 * \sum_{k=n}^{m}\binom{m}{k}(\frac{1}{2})^{m} p=2k=nm(km)(21)m,
else, p = 2 ∗ ∑ k = 0 n ( m k ) ( 1 2 ) m p = 2 * \sum_{k=0}^{n}\binom{m}{k}(\frac{1}{2})^{m} p=2k=0n(km)(21)m
2,正态理论近似
值得注意的是,在npq>=5时,即这里的n*(1/2)*(1/2)>=5,即n>=20时,可以用正态分布来代替二项分布计算p value。
设m为A>B和A<B的总个数,n为A>B的个数,用来近似的正态分布的均值为mean=m/2,方差var=m/4,则
if n >= m/2,则 p = 2 ∗ ( 1 − ϕ ( n − m / 2 − 0.5 m / 4 ) ) p = 2 * (1 - \phi(\frac{n - m/2 - 0.5}{\sqrt{m/4}})) p=2(1ϕ(m/4 nm/20.5)),
else, p = 2 ∗ ϕ ( n − m / 2 + 0.5 m / 4 ) p = 2 * \phi(\frac{n - m/2 + 0.5}{\sqrt{m/4}}) p=2ϕ(m/4 nm/2+0.5)
Note: 上式中的加减0.5使用了连续性修正,使得二项分布更好地被正态分布所近似。

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值