常用的八大概率分布及其实现-CSDN博客

本文链接：https://blog.csdn.net/allein_STR/article/details/129507025

本文介绍了如何使用Python中的numpy,matplotlib,scipy等库来生成和可视化几种常见的概率分布，包括离散和连续的均匀分布、正态分布、对数正态分布、泊松分布、指数分布、二项分布以及t分布和卡方分布。通过示例代码展示了如何创建这些分布的PDF或PMF曲线，以及如何进行模拟和绘图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.均匀分布

1.1 离散均匀分布

1.2 连续均匀分布

1.3 python代码

import numpy as np  
import matplotlib.pyplot as plt 
from scipy import stats 
 
# for continuous  
a = 0 
b = 50 
size = 5000 
 
X_continuous = np.linspace(a, b, size) 
continuous_uniform = stats.uniform(loc=a, scale=b) 
continuous_uniform_pdf = continuous_uniform.pdf(X_continuous) 
 
# for discrete 
X_discrete = np.arange(1, 7) 
discrete_uniform = stats.randint(1, 7) 
discrete_uniform_pmf = discrete_uniform.pmf(X_discrete)  
 
# plot both tables 
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5)) 
# discrete plot 
ax[0].bar(X_discrete, discrete_uniform_pmf) 
ax[0].set_xlabel("X") 
ax[0].set_ylabel("Probability") 
ax[0].set_title("Discrete Uniform Distribution") 
# continuous plot 
ax[1].plot(X_continuous, continuous_uniform_pdf) 
ax[1].set_xlabel("X") 
ax[1].set_ylabel("Probability") 
ax[1].set_title("Continuous Uniform Distribution") 
plt.show()

2.高斯分布/正态分布

σ 是标准偏差，μ 是分布的平均值。要注意的是，在正态分布中，均值、众数和中位数都是相等的。

python代码

mu = 0 
variance = 1 
sigma = np.sqrt(variance) 
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100) 
 
plt.subplots(figsize=(8, 5)) 
plt.plot(x, stats.norm.pdf(x, mu, sigma)) 
plt.title("Normal Distribution") 
plt.show()

3.对数正态分布

对数正态分布是对数呈正态分布的随机变量的连续概率分布。因此，如果随机变量 X 是对数正态分布的，则 Y = ln(X) 具有正态分布。

python代码

X = np.linspace(0, 6, 500) 
 
std = 1 
mean = 0 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
 
fig, ax = plt.subplots(figsize=(8, 5)) 
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1") 
ax.set_xticks(np.arange(min(X), max(X))) 
 
std = 0.5 
mean = 0 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5") 
 
std = 1.5 
mean = 1 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5") 
 
plt.title("Lognormal Distribution") 
plt.legend() 
plt.show()

4.泊松分布

泊松分布用于显示事件在指定时期内可能发生的次数。

λ 是一个时间单位的事件率，k 是出现的次数

python代码

from scipy import stats 

print(stats.poisson.pmf(k=9, mu=3))

X = stats.poisson.rvs(mu=3, size=500) 
 
plt.subplots(figsize=(8, 5)) 
plt.hist(X, density=True, edgecolor="black") 
plt.title("Poisson Distribution") 
plt.show()

泊松分布的曲线类似于正态分布，λ 表示峰值。

5.指数分布

指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下：

λ 是速率参数，x 是随机变量。

python代码

X = np.linspace(0, 5, 5000) 
 
exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1) 
 
plt.subplots(figsize=(8,5)) 
plt.plot(X, exponetial_distribtuion) 
plt.title("Exponential Distribution") 
plt.show()

6.二项分布

可以将二项分布视为实验中成功或失败的概率

P = 二项分布概率

x = n次试验中特定结果的次数

p = 单次实验中，成功的概率

q = 单次实验中，失败的概率

n = 实验的次数

python代码

X = np.random.binomial(n=1, p=0.5, size=1000) 
 
plt.subplots(figsize=(8, 5)) 
plt.hist(X) 
plt.title("Binomial Distribution") 
plt.show()

7.t 分布

t 分布是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员

n 是称为“自由度”的参数，有时可以看到它被称为“d.o.f.” 对于较高的 n 值，t 分布更接近正态分布。

python代码

import seaborn as sns 
from scipy import stats 
 
X1 = stats.t.rvs(df=1, size=4) 
X2 = stats.t.rvs(df=3, size=4) 
X3 = stats.t.rvs(df=9, size=4) 
 
plt.subplots(figsize=(8,5)) 
sns.kdeplot(X1, label = "1 d.o.f") 
sns.kdeplot(X2, label = "3 d.o.f") 
sns.kdeplot(X3, label = "6 d.o.f") 
plt.title("Student's t distribution") 
plt.legend() 
plt.show()

8.卡方分布

卡方检验的基本公式，也就是χ2的计算公式，即观察值和理论值之间的偏差

A 为观察值，E为理论值，k为观察值的个数，最后一个式子实际上就是具体计算的方法了 n 为总的频数，p为理论频率，那么n*p自然就是理论频数（理论值）

python代码

X = np.arange(0, 6, 0.25) 
 
plt.subplots(figsize=(8, 5)) 
plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f") 
plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f") 
plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f") 
plt.title("Chi-squared Distribution") 
plt.legend() 
plt.show()