【读书笔记-＞统计学】07-02 离散型概率分布-二项分布概念简介

最新推荐文章于 2022-06-03 10:20:28 发布

小明2766

最新推荐文章于 2022-06-03 10:20:28 发布

阅读量1.7k

点赞数

分类专栏： # 《深入浅出统计学》文章标签：数据分析

本文链接：https://blog.csdn.net/bill2766/article/details/124265403

版权

《深入浅出统计学》专栏收录该内容

23 篇文章 25 订阅

订阅专栏

二项分布

假设一个情境：你参加了一个问答节目，一共3道题，每道题有4个选项。但是你一点都不知道答案，那么求能答对题数的概率分布。

下面是3个问题的概率树：

在这里插入图片描述

如果X表示答对的题数，我们看看具体的概率：

在这里插入图片描述

答对0题和答对3题显然易见，只需要 $0.75^3$ 和 $0.25^3$ 。那么答对1题呢，答对的题目可以是题目1、题目2或题目3三种可能，因此答案是 $0.75^2*0.25+0.75^2*0.25+0.75^2*0.25= 3 * 0.75^2*0.25$ 。答对2题同理。

我们可以看到规律：
$P(X=r) = ^3C_r * 0.25^r * 0.75^{3-r}$
组合 $^nC_r$ 即从n个对象中选取r个对象的选取方式数目（不需要知道确切的选取顺序）。现在我们需要的是从3个问题中选取r个选对的问题。

另一个情境：假设有5道题了呢？

我们可以思考n个问题的解法。很好理解，这个公式的意思是，在答对r题的情况下，n道题中选取r个题目用来答对，答对的概率是0.25，有r次，答错的概率是0.75，有n-r次。
$P(X=r) = ^nC_r * 0.25^r * 0.75^{n-r}$
如果再次归纳，就可以得到。

设想每道题的答对概率是p，答错的概率是q=1-p。答对n个问题中的r个问题的概率为：
$P(X=r) = ^nC_r * p^r * q^{n-r}$
这类问题称为二项分布。

二项分布的条件

你正在进行一系列独立试验。
每一次试验都存在失败和成功的可能，每一次试验的成功概率相同。
试验次数有限。

第1条和第2条的条件和几何分布的条件相同。差别在于二项分布感兴趣的事获得成功的次数。

让我们用X表示“n次试验中的成功次数”，为了求出取得r次成功的概率，可用下列算式：
$P(X=r)=^nC_r*p^r*q^{n-r}, 其中^nC_r = \frac{n!}{r!(n-r)!}$
p是每一次试验的成功概率，n是试验次数。写作：
$\sim B(n,p)$
根据n与p的不同数值，二项分布的形状会发生变化，p越接近0.5，图形越对称。一般情况下，当p小于0.5时，图形向右偏斜；当p大于0.5时，图形向左偏斜。

在这里插入图片描述

二项分布的期望和方差

前面我们使用二项分布计算基本概率，由此我们可以算出答对一定数目的问题的概率。但是，如果答案是随机选择的，那么我们到底能期望自己答对几个问题呢？算出期望可以帮助你做出更正确的选择，以便决定是否参加下一轮问题的回答。

让我们看看能否求出期望和方差的常规表达式。我们先算单次试验的期望和方差，然后看看是否能推广至n次独立的试验。

先看单次试验

假定我们只试验一次。每一次试验或是成功，或是失败，因此，在单次试验时，有可能取得0次或1次成功，如果X～B(1, p)，则成功1次的概率为p，成功0次的概率为q。

X的概率分布：

x	0	1
P(X=x)	q	p

求出期望和方差：
$E(X) = 0q + 1p = p \\ \\ Var(X) = E(X^2) - E^2(X) \\ = (0q+1p) - p^2 \\ = p - p^2 \\ = pq$

再看n次试验

因为每个 $X_i$ 是一次单独的试验（可以理解为1次“答题”）， $E(X_i) = p, Var(X_i)=pq$ 。则：
$E(X) = E(X_1) + E(X_2) + ... + E(X_n) \\ = n E(X_i) \\ = np \\ \\ Var(X) = Var(X_1) + Var(X_2) + ... + Var(X_n) \\ = n Var(X_i) \\ = npq$
由于试验是独立的，因此， $E(X_1) = E(X_2) = E(X_3)$ ，以此类推。Var(X)同理。

我们先分析了单次试验的情况，求出了期望和方差。再分析了n个独立试验的情况，并利用简便方法求出了n次试验的期望和方差。我们发现，只要X~B(n,p)，则：
$\\ Var(X) = npq$
上面的公式对所有二项分布都成立。

问：几何分布和二项分布看着很相似。它们有区别吗？分别应该在什么时候用呢？

答：几何分布和二项分布确实有共同之处，二者处理的都是独立试验，每次试验都或是成功，或是失败。差别在于实际上要求的结果。在哪种情况下使用哪种概率分布取决于要求的结果。

如果试验次数固定，求成功一定次数的概率，则需要使用二项分布；使用二项分布还可以求出在n次试验中能够期望取得的成功次数。

如果你感兴趣的是在取得第一次成功之前需要试验多少次，则需要使用几何分布。

问：几何分布是有众数的，二项分布有众数吗？

答：有的。一个概率分布的众数就是具有最高概率的数值，如果p为0.5且n为偶数，则众数为np；如果p为0.5且n为奇数，则该概率分布有两个众数，即位于np左右两侧的两个数值。对于其他n值和p值，则需要通过反复试算的方法求众数，但一般都非常接近np。

问：几何分布和二项分布都要进行大量试验，每一次试验的成功概率都必须一样吗？

答：为了能应用几何分布和二项分布，每一次试验的成功概率都必须相同。如果不满足这个条件，则无论是几何分布还是二项分布都不适用。

我试算出了E(X)，但所得结果不是概率分布中的数值。我哪里做错了吗？

答：计算E(X)的时候，结果有可能不是概率分布中的可能数值，即，结果有可能不是一个会实际出现的数值。得出这样的结果并不表示你算错了。

二项分布总结

在这里插入图片描述

例题：

在这里插入图片描述

小明2766

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【读书笔记-＞统计学】07-02 离散型概率分布-二项分布概念简介

二项分布假设一个情境：你参加了一个问答节目，一共3道题，每道题有4个选项。但是你一点都不知道答案，那么求能答对题数的概率分布。下面是3个问题的概率树：如果X表示答对的题数，我们看看具体的概率：答对0题和答对3题显然易见，只需要0.7530.75^30.753和0.2530.25^30.253。那么答对1题呢，答对的题目可以是题目1、题目2或题目3三种可能，因此答案是0.752∗0.25+0.752∗0.25+0.752∗0.25=3∗0.752∗0.250.75^2*0.25+0.75^2*0.
复制链接

扫一扫

专栏目录