利用统计计算而不是计算机模拟解决样本容量问题

微信群的小伙伴提了一个有意思的问题:

然后他用 R 模拟了一下,大约 150次左右。

但是我想用统计学的方法直接计算结果。

二项分布的正态近似

抛硬币问题是一个典型的二项分布问题。按题目,抛 n 次硬币头朝上的概率为:

P(\eta = k) = C_n^kp^k(1-p)^{n-k}

当满足 np\ge5n(1-p)\ge5 时,二项分布可以近似为 \mu = np,\delta = \sqrt{np(1-p)}的正态分布。

那么在上题中,只要抛 A 硬币的次数大于等于13次,抛 B 硬币的次数大于等于10次,那么抛硬币的二项分布就可以近似为正态分布。

两总体均值推断

硬币 A 虽然被动过手脚,但是对于不知情的人来说,硬币 A、B 头朝上的概率 p都应该是 0.5。所以对于不知情的人,多次抛掷硬币 A 或 B 的组成的样本都应该服从 \mu = 0.5n,\delta = \sqrt{0.25n}的正态分布。

同时,多次抛掷硬币 A 或 B 这一过程的结果可以视为该正态分布的一个简单随机样本。

因此,不知情的投币人如果怀疑每次抛掷 A,B 硬币头朝上的概率不同,则可以提出假设:

H_0:p_a=p_b
H_a:p_a\neq p_b

抛掷硬币 A,B 这两个实验的比例之差点估计量为:

\bar{p_a}-\bar{p_b}

\bar{p_a}-\bar{p_b}的标准误差为:

\delta_{\bar{p_a}-\bar{p_b}} = \sqrt{\frac{p_a(1-p_a)}{n_a}+\frac{p_a(1-p_b)}{n_b}}

在假设H_0为真时,p_a = p_b = p,p_a-p_b 的标准误差变为:

\delta_{\bar{p_a}-\bar{p_b}} = \sqrt{\frac{p(1-p)}{n_a}+\frac{p(1-p)}{n_b}} = \sqrt{p(1-p)(\frac{1}{n_a}+\frac{1}{n_b})}

所以检验统计量

z = \frac{\bar{p_a}-\bar{p_b}}{\delta_{\bar{p_a}-\bar{p_b}}} = \frac{0.1}{\sqrt{0.25(\frac{1}{n_a}+\frac{1}{n_b})}}

回到题目

题目里要求的95%的置信度确认 A,B 不同,那么95%的置信度即要求检验统计量 Z \le1.96。解出来 \frac{1}{n_a}+\frac{1}{n_b} \le 0.2。如果要求抛掷 A,B 的次数相同,则各抛200次即可。和计算机模拟的次数相差似乎还在可接收范围内。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值