二项分布

最新推荐文章于 2024-03-12 16:49:07 发布

沈波

最新推荐文章于 2024-03-12 16:49:07 发布

阅读量1.3w

点赞数 2

分类专栏： Machine Learnning 文章标签：维基百科二项分布

Machine Learnning 专栏收录该内容

29 篇文章 2 订阅

订阅专栏

二项分布[编辑]

维基百科，自由的百科全书

二项分布
机率质量函数
累积分布函数
参数	$n \geq 0$ 试验次数 (整数) $0\leq p \leq 1$ 成功概率 (实数)
值域	$k \in \{0,\dots,n\}\!$
概率密度函数	${n\choose k} p^k (1-p)^{n-k} \!$
累积分布函数	$I_{1-p}(n-\lfloor k\rfloor, 1+\lfloor k\rfloor) \!$
标记	{{{notation}}}
期望值	$n\,p\!$
中位数	$\{\lfloor np\rfloor, \lceil np \rceil\}$ 之一
众数	$\lfloor (n+1)\,p\rfloor\!$ 或 $\lfloor (n+1)\,p\rfloor\!-1$
方差	$n\,p\,(1-p)\!$
偏态	$\frac{1-2\,p}{\sqrt{n\,p\,(1-p)}}\!$
峰态	$\frac{1-6\,p\,(1-p)}{n\,p\,(1-p)}\!$
熵值	$\frac{1}{2} \ln \left( 2 \pi n e p (1-p) \right) + O \left( \frac{1}{n} \right)\!$
动差生成函数	$(1-p + p\,e^t)^n \!$
特征函数	$(1-p + p\,e^{i\,t})^n \!$

在概率论和统计学中，二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上，当n = 1时，二项分布就是伯努利分布。二项分布是显著性差异的二项试验的基础。

详述[编辑]

概率质量函数[编辑]

一般地，如果随机变量 $\mathit{X}$ 服从参数为 $\mathit{n}$ 和 $\mathit{p}$ 的二项分布，我们记 $X \sim b(n,p)$ 或 $X \sim B(n,p)$ .n次试验中正好得到k次成功的概率由概率质量函数给出：

$f(k;n,p) = \Pr(K = k) = {n\choose k}p^k(1-p)^{n-k}$

对于k = 0, 1, 2, ..., n，其中 ${n\choose k}=\frac{n!}{k!(n-k)!}$

是二项式系数（这就是二项分布的名称的由来），又记为C(n, k), _nC_k，或ⁿC_k。该公式可以用以下方法理解：我们希望有k次成功(p^k)和n − k次失败(1 − p)^n − k。然而，k次成功可以在n次试验的任何地方出现，而把k次成功分布在n次试验中共有C(n, k)个不同的方法。

在制造二项分布概率的参考表格时，通常表格中只填上n/2个值。这是因为k > n/2时的概率可以从它的补集计算出：

$f(k;n,p)=f(n-k;n,1-p). \,$

因此，我们要看另外一个k和另外一个p（二项分布一般不是对称的）。然而，它的表现不是任意的。总存在一个整数M，满足

$(n+1)p-1 < M \leq (n+1)p. \,$

作为k的函数，表达式ƒ(k; n, p)当k < M时单调递增，k > M时单调递减，只有当(n + 1)p是整数时例外。在这时，有两个值使ƒ达到最大：(n + 1)p和(n + 1)p − 1。M是伯努利试验的最可能的结果，称为众数。注意它发生的概率可以很小。

累积分布函数[编辑]

累积分布函数可以表示为：

$F(x;n,p) = \Pr(X \le x) = \sum_{i=0}^{\lfloor x \rfloor} {n\choose i}p^i(1-p)^{n-i}.$

其中 $\scriptstyle \lfloor x\rfloor\,$ 是小于或等于x的最大整数。

它也可以用正则化不完全贝塔函数来表示：

$\begin{align}F(k;n,p) & = \Pr(X \le k) = I_{1-p}(n-k, k+1) \\& = (n-k) {n \choose k} \int_0^{1-p} t^{n-k-1} (1-t)^k \, dt.\end{align}$

期望和方差[编辑]

如果X ~ B(n, p)（也就是说，X是服从二项分布的随机变量），那么X的期望值为

$\operatorname{E}[X] = np$

方差为

$\operatorname{Var}[X] = np(1 - p).$

这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果：1和0，前者发生的概率为p，后者的概率为1 − p。该试验的期望值等于μ = 1 · p + 0 · (1−p) = p。该试验的方差也可以类似地计算：σ² = (1−p)²·p + (0−p)²·(1−p) = p(1 − p).

一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和：

$\mu_n = \sum_{k=1}^n \mu = np, \qquad \sigma^2_n = \sum_{k=1}^n \sigma^2 = np(1 - p).$

众数和中位数[编辑]

通常二项分布B(n, p)的众数等于⌊(n + 1)p⌋，其中e ⌊ ⌋ 是取整函数。然而，当(n + 1)p是整数且p不等于0或1时，分布有两个众数：(n + 1)p和(n + 1)p − 1。当p等于0或1时，众数相应地等于0或 n。这些情况可以综述如下：

$\text{mode} = \begin{cases} \lfloor (n+1)\,p\rfloor & \text{if }(n+1)p\text{ is 0 or a noninteger}, \\ (n+1)\,p\ \text{ and }\ (n+1)\,p - 1 &\text{if }(n+1)p\in\{1,\dots,n\}, \\ n & \text{if }(n+1)p = n + 1. \end{cases}$

一般地，没有一个单一的公式可以求出二项分布的中位数，甚至中位数可能是不唯一的。然而有几个特殊的结果：

如果np是整数，那么平均数、中位数和众数相等，都等于np。^[1]^[2]
任何中位数m都位于区间⌊np⌋ ≤ m ≤ ⌈np⌉内。^[3]
中位数m不能离平均数太远：|m − np| ≤ min{ ln 2, max{p, 1 − p} }。^[4]
如果p ≤ 1 − ln 2，或p ≥ ln 2，或|m − np| ≤ min{p, 1 − p}（除了p = ½、n是奇数的情况以外），那么中位数是唯一的，且等于m = round(np)。^[3]^[4]
如果p = 1/2，且n是奇数，那么区间½(n − 1) ≤ m ≤ ½(n + 1)中的任何数m都是二项分布的中位数。如果p = 1/2且n是偶数，那么m = n/2是唯一的中位数。