二项分布近似成泊松分布、正态分布

心态与习惯

已于 2023-09-14 16:04:48 修改

阅读量1.6w

点赞数 8

分类专栏：数学优化统计学/机器学习 Python 文章标签： python numpy 机器学习

于 2022-07-12 00:55:14 首次发布

本文链接：https://blog.csdn.net/robert_chen1988/article/details/125732997

版权

数学优化同时被 3 个专栏收录

145 篇文章

订阅专栏

Python

68 篇文章

订阅专栏

统计学/机器学习

55 篇文章

订阅专栏

多次听到二项分布与泊松分布、正态分布的近似关系，决定写一个博客总结一下。

二项分布 $\mathrm{B}(n,p)$ ，有两个参数， $n$ 表示独立实验的次数，而 $p$ 表示单次实验成功的概率。一个形象的例子是：抽检 $n$ 个产品，其中有 k 个合格品的概率为

$Pr(x=k)=C_n^kp^k(1-p)^{n-k}$

近似成泊松或正态分布有这两个特点：

若 $n$ 很大， $p$ 很小，近似成泊松分布 ( $\lambda=np$ , 可以根据上面的概率密度表达式推出来，求出 n 趋于无穷大时, $p$ 很小时的极限)
若 $n$ 很大， $p$ 不是很小，近似成正态分布

1. 近似为泊松分布

当 $n\geq 100$ 且 $p\leq 0.1$ 或 $n\geq 20$ 且 $p\leq 0.05$ 时，二项分布可以近似为泊松分布，并且泊松分布的参数值 $\lambda=np$ .

见下面的概率密度函数图形：

在这里插入图片描述

确实也挺接近的。

代码：

# -*- coding: utf-8 -*-
"""
Created on Mon Jul 11 16:31:16 2022

@author: chen
"""

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st

n = 100
p = 0.1

x = np.arange(1, 2*n*p)
y = [st.binom.pmf(i, n, p) for i in x]
plt.plot(x, y, 'r', label='binormial, n=100,p=0.1')
plt.legend()

y1 = [st.poisson.pmf(i, n*p) for i in x]
plt.plot(x, y1, 'b', label='poisson, lambda=n*p')
plt.legend(fontsize=20)

n = 20
p = 0.05

plt.figure()
x = np.arange(1, 10*n*p)
y = [st.binom.pmf(i, n, p) for i in x]
plt.plot(x, y, 'r', label='binormial, n=20,p=0.05')
plt.legend()
y1 = [st.poisson.pmf(i, n*p) for i in x]
plt.plot(x, y1, 'b', label='poisson, lambda=n*p')
plt.legend(fontsize=20)

2 近似为正态分布

当 $n$ 很大时，一般认为 $\geq 20$ 并且 $p$ 值不接近于 0 或 1，则可以认为二项分布近似为正态分布，一种说法是要 $np\geq 5$ , $n(1-p)\geq 5$ 。见下面两个概率密度函数：

在这里插入图片描述

可以看出， $n$ 越大，越接近正态分布。

部分代码：

# -*- coding: utf-8 -*-
"""
Created on Mon Jul 11 16:31:16 2022

@author: chen
"""

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st

n = 50
p = 0.1

x = np.arange(1, 3*n*p)
y = [st.binom.pmf(i, n, p) for i in x]
plt.plot(x, y, 'r', label='binormial, n=50,p=0.1')
plt.legend()

y1 = [st.norm.pdf(i, n*p, np.sqrt(n*p*(1-p))) for i in x]
plt.plot(x, y1, 'b', label='norm, mu=np, sigma^2=np(1-p)')
plt.legend(fontsize=20)


plt.figure()
n = 100
p = 0.1

x = np.arange(1, 3*n*p)
y = [st.binom.pmf(i, n, p) for i in x]
plt.plot(x, y, 'r', label='binormial, n=100,p=0.1')
plt.legend()

y1 = [st.norm.pdf(i, n*p, np.sqrt(n*p*(1-p))) for i in x]
plt.plot(x, y1, 'b', label='norm, mu=np, sigma^2=np(1-p)')
plt.legend(fontsize=20)