【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介

用正态分布近似代替二项分布

假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4。求答对30题及以上的概率。

这个是典型的二项分布,具体介绍见:【读书笔记->统计学】07-02 离散型概率分布-二项分布概念简介。我们需要求P(X>=30),即我们必须将P(X=30)直至P(X=40)的概率算出来,再加总。**要算出11个概率在求和,这得多麻烦呀!**不过正态分布可以代替二项分布。

因为正态分布要用到,我们求出二项分布的期望和方差,分别是np和npq,则分别为40*0.25=10和40*0.25*0.75=7.5。

在某些情况下,泊松分布可以近似代替二项分布(具体见:【读书笔记->统计学】07-03 离散型概率分布-泊松分布概念简介),不过,在另一些情况下,正态分布也可以近似代替二项分布

在这里插入图片描述

在某些情况下,二项分布的形状看上去和正态分布的形状十分相似,这时就可以代替。一般说来,当np和nq双双大于5时,可以用正态分布近似代替二项分布。

为了方便正态分布查表,我们需要知道均值和方差,则 μ = n p \mu=np μ=np σ 2 = n p q \sigma^2=npq σ2=npq。把二项分布的参数设置为正态分布的参数。

在这里插入图片描述

二项分布的近似

如果X~B(n, p),且np>5,nq>5(有些教材是>10),则可以使用X~N(np, npq)近似代替二项分布。


在计算结果之前,我们先看看另一个例子:求12个问题中答对5题及以下的概率,其中每个问题只有两个备选答案。

在这里插入图片描述

在这里插入图片描述

准确的是0.387,近似正态分布的结果是0.5,差距有点大。错在哪里呢?

首先看概率分布X~B(12, 0.5),我们想求出答对的问题不足6个的概率,并已通过计算P(X<6)获得答案。

在这里插入图片描述

然后我们用X~N(6, 3)对这个分布进行近似,根据需要,为了求出二项分布的概率P(X<6),我们用正态分布计算P(X<6):

在这里插入图片描述

进一步仔细观察两种概率分布。虽然不易察觉,但两者之间确实存在重大差别:我们分别用于计算两个概率的两个范围略有不同。在计算正态分布的时候,我们使用的实际范围略微大一些,这正是概率变大的原因。

我们在对前面的两种概率进行计算时忽略了一件事一没有考虑到其中一种分布是离散分布(二项分布),而另一种分布是连续分布(正态分布)。这很重要,因为我们所用的概率范围会大大影响最终概率。

以下在同一张图上体现了 X~B (12,0.5) 和 N (6,3) 这两种概率分布。我们特别指出了正态分布所用概率范围超出二项分布所用范围的部分。

在这里插入图片描述

当我们从一个离散概率分布中取出一些整数,并将这些整数转化为连续标度时,我们所观察的并不仅仅是那些精确的孤立数值,相反,我们观察的是由多个数字形成的范围,这些数字经过取整,得到的正是我们取用的那些精确的离散整数。

让我们以离散数值 6 为例,当我们将数字 6 转化成一个连续标度时,我们需要考虑所有取整后等于 6 的数字,即,从 5.5 到 6.5 的整个数字范围。

在这里插入图片描述

此前我们试着用正态分布近似计算答对题数在 6 以下的概率时,没有注意到离散数值 6 转变成了连续标度。可实际上,离散数值 6 包含了从 5.5 到 6.5 之间的一个范围,因此,我们不应该计算 P (X<6),而应该试着计算 P (X <5.5)。

这种调整被称为连续性修正。在将离散数值转换为连续标度时,所作的小幅调整就是连续性修正。

如果我们用P(X<5.5)=0.3858来计算概率,则与用二项分布得的概率就十分近似了。

几种连续性修正的情况

在这里插入图片描述

问:确实能得到精确结果吗?

答:没错,在大多数情况下都足够精确。但要记住:需要进行连续性修正。如果不进行连续性修正,则结果的正确性将下降。

问:怎么对<和>进行连续性修正?像≤和≥一样进行处理吗?

答:有差别的,这要看你要包含哪个数值,要排除哪个数值。

在用≤和≥计算概率的时候,你需要确保不等式中的数值落在已知概率范围之内。因此,假如要计算 P (X≤ 10),则需要确保数值范围中包含 10,即需要考虑 P (X <10.5)。

在用<或>计算概率时,你需要确保不等式中的数值落在已知概率范围之外。即,假如要计算 P (X <10),则需要确保数值范围中不包含 10,即需要考虑 P (X <9.5)。

问:正态分布和泊松分布都能作为二项分布的近似,我该用哪一个?

答:这要看具体情况。如果 X~ B (n, p),当 np>5 且 nq>5 时,则使用正态分布近似代替二项分布。如果 n>50 且 p <0.1, 则可以使用泊松分布近似代替二项分布。

连续性修正例题

在这里插入图片描述

情景答案:

在这里插入图片描述

小知识:“正态”是中文说法,其实,在英语里,名字是“normal’”,意思是“常见的,典型的”,主要是因为它能恰当代表多种多样的数据类型。这些数据的概率分布具有独特的形状一钟形,十分平滑。可以说它是理想型。(比如一批面包的重量可能符合正态分布,有重有轻,但在一个数值边缘徘徊)

用正态分布近似代替泊松分布

假设一个情境:过山车有时候会发生故障,故障导致延迟,延迟导致耗钱。过山车预期的故障次数为每年40次。投资人算过,如果停机概率低于每年52次,就可以赚到钱。求这个概率。

这是一个典型的泊松分布,详细介绍见:【读书笔记->统计学】07-03 离散型概率分布-泊松分布概念简介。如果X表示一年内的故障次数,则X~Po(40)。我们需要求P(X<52),为此我们需要求出52以内的所有X值分别对应的概率。

这也太麻烦了,所幸!在某些特定情况下,泊松分布的形状很像正态分布。

这样我们就不需要一个个计算了,直接求正态概率表的值。

如果X~Po(λ),表示相应的正态近似为X~N(λ, λ)。当λ很大的时候,泊松分布的形状就会与正态分布相似,这时候就可以代替。

在这里插入图片描述

当λ大于15时可谓足够大。

泊松分布的近似

如果X~Po(λ)且λ>15,我们就能用X~N(λ, λ)近似计算X~Po(λ)。

泊松分布例题(⚠️记得连续性修正

在这里插入图片描述

总结

在这里插入图片描述

小知识:几何分布是不能用正态分布替代的,因为它的分布外形永远不会和正态分布相似。(其他两个能代替是因为某些情况下,形状相似

问:用正态分布近似二项分布或泊松分布有什么好处呢?如果坚持用原来的分布,结果是不是会更准确呢?

答:如果使用原来的分布,结果的确会更准确,但这极费时间。如果你想通过二项分布或泊松分布求出一个数值范围的概率,就需要求出该数值范围中的每一个单独数值的概率。相反,使用正态分布则可以查找整个范围的概率,这样就大大地简化了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值