二项分布
1.贝努里概型
-
定义:n次独立重复试验称作n重贝努里试验,每次试验成功的概率都是p,失败的概率都是q=1-p
-
内容:
用X表示n重贝努里试验中事件A(成功)出现的次数,则
P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , . . . , n P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,...,n P(X=k)=Cnkpk(1−p)n−k,k=0,1,...,n
不难验证:
a . P ( X = k ) ≥ 0 b . ∑ k = 0 n P ( X = k ) = 1 a.P(X=k)\geq0 \\ b.\sum_{k=0}^nP(X=k)=1 a.P(X=k)≥0b.k=0∑nP(X=k)=1 -
二项分布
-
称 r . v X r.v X r.vX服从参数为n和p的二项分布,记作X~B(n,p)
-
二项分布描述的是n重贝努里试验中出现“成功”次数X的概率分布
-
图形特点:对于固定n及p,当k增加时,概率P(X=k)先是增加至达到最大值,随后单调减少。
-
当(n+1)p不为整数时,二项概率 P ( X = k ) P(X=k) P(X=k)在 k = [ ( n + 1 ) p ] k=[(n+1)p] k=[(n+1)p]达到最大值。
([x]表示不超过x的最大整数)
-
当(n+1)p为整数时,二项概率 P ( X = k ) P(X=k) P(X=k)在 k = ( n + 1 ) p k=(n+1)p k=(n+1)p和 k = ( n + 1 ) p − 1 k=(n+1)p-1 k=(n+1)p−1达到最大值。
-
-
当n=1时, P ( X = k ) = p k ( 1 − p ) , k = 0 , 1 P(X=k)=p^k(1-p),k=0,1 P(X=k)=pk(1−p),k=0,1。称X服从0-1分布
-
-
使用条件:
-
每次试验条件相同
-
每次试验只考虑两个互逆结果 A A A或 A ‾ \overline A A,且 P ( A ) = p , P ( A ‾ ) = 1 − p P(A)=p,P(\overline A)=1-p P(A)=p,P(A)=1−p
-
各次试验相互独立
-
2. 二项分布的泊松近似
-
背景:当试验次数n很大时,计算二项概率变得很麻烦。
-
如1000件产品,只有一件次品,要求有放回地抽5000次,其中至少5次出现次品的概率。
则要计算
P ( X > 5 ) = ∑ k = 6 5000 P ( X = k ) = ∑ k = 6 5000 C 5000 k ( 1 1000 ) k ( 999 1000 ) 5000 − k P(X>5)=\sum^{5000}_{k=6}P(X=k)=\sum^{5000}_{k=6}C^k_{5000}(\frac{1}{1000})^k(\frac{999}{1000})^{5000-k} P(X>5)=k=6∑5000P(X=k)=k=6∑5000C5000k(10001)k(1000999)5000−k
因此必须寻求近似方法,由此引入二项分布的泊松近似
-
-
泊松定理
设 λ \lambda λ是一个正整数, p n = λ n p_n=\frac{\lambda}{n} pn=nλ,则有
l i m n → ∞ C n k p n k ( 1 − p n ) n − k = e − λ λ k k ! , k = 0 , 1 , 2 , . . . lim_{n\to \infty}C_n^kp_n^k(1-p_n)^{n-k}=e^{-\lambda}\frac{\lambda^k}{k!},\space k=0,1,2,... limn→∞Cnkpnk(1−pn)n−k=e−λk!λk, k=0,1,2,...
定理的条件意味着当n很大时, p n p_n pn必定很小。因此,泊松定理表明,当n很大,p很小时有以下近似式:
C n k p n k ( 1 − p n ) n − k ≈ e − λ λ k k ! , λ = n p C_n^kp_n^k(1-p_n)^{n-k}\approx e^{-\lambda}\frac{\lambda^k}{k!}, \space \lambda=np Cnkpnk(1−pn)n−k≈e−λk!λk, λ=np
实际计算中, n ≥ 100 , n p ≤ 10 n\geq 100,np\leq 10 n≥100,np≤10时近似效果就很好。
3. 二项分布的正态近似
-
定理(棣莫佛-拉普拉斯定理)
设随机变量 Y n Y_n Yn服从参数 n , p ( 0 < p < 1 ) n,p(0<p<1) n,p(0<p<1)的二项分布,则对任意x,有
l i m n → ∞ P { Y n − n p n p ( 1 − p ) ≤ x } = ∫ − ∞ x 1 2 π e x p ( − t 2 2 ) d t lim_{n\to \infty}P\{\frac{Y_n-np}{\sqrt{np(1-p)}}\leq x\}=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}exp(-\frac{t^2}{2})dt limn→∞P{np(1−p)Yn−np≤x}=∫−∞x2π1exp(−2t2)dt
当n很大, 0 < p < 1 0<p<1 0<p<1是一个定值时,或者说, n p ( 1 − p ) np(1-p) np(1−p)也不太小时,二项变量 Y n Y_n Yn的分布近似正态分布 N ( n p , n p ( 1 − p ) ) N(np,np(1-p)) N(np,np(1−p)).实用中, n ≥ 30 n\geq30 n≥30, n p ≥ 10 np\geq 10 np≥10时,正态近似的效果较好