深入解析常见概率分布：从期望到方差全面掌握

hachiikawaQ

已于 2024-11-13 12:54:00 修改

阅读量3.2k

点赞数 51

分类专栏：概率论文章标签：概率论人工智能笔记深度学习 python 数学建模

于 2024-11-12 23:56:37 首次发布

本文链接：https://blog.csdn.net/a13478107907/article/details/143726698

版权

概率论专栏收录该内容

1 篇文章

订阅专栏

概率分布的期望、方差和分布函数

在概率论与统计学中，不同的分布有其各自的数学特性。每种分布的期望（数学期望）表达了该随机变量在长期试验中所期望的平均值。以下我们对几种常见分布进行详细介绍，包含它们的定义、期望、方差和分布函数。

1. 均匀分布 (Uniform Distribution)

定义：如果随机变量 $X$ 在区间 $[a, b]$ 上均匀分布，记为 $\sim U(a, b)$ 。均匀分布意味着在 $[a, b]$ 区间内任何一个子区间内的数值出现的概率是相等的。
概率密度函数： $\frac{1}{b-a}, \quad a \le x \le b$
期望： $\frac{a + b}{2}$
方差： $\text{Var}(X) = \frac{(b - a)^2}{12}$
分布函数：
$\begin{cases} 0 & \text{if } x < a \\ \frac{x - a}{b - a} & \text{if } a \leq x \leq b \\ 1 & \text{if } x > b \end{cases}$
性质：均匀分布是最简单的连续分布之一，主要用于表示等可能性事件。例如，生成伪随机数时，通常使用均匀分布。

2. 指数分布 (Exponential Distribution)

定义：如果随机变量 $X$ 的出现时间服从指数分布，记为 $\sim E(\lambda)$ ，其中参数 $\lambda > 0$ 是事件发生的速率。
概率密度函数： $\lambda e^{-\lambda x}, \quad x \ge 0$
期望： $\frac{1}{\lambda}$
方差： $\text{Var}(X) = \frac{1}{\lambda^2}$
分布函数：
$\begin{cases} 0 & \text{if } x < 0 \\ 1 - e^{-\lambda x} & \text{if } x \geq 0 \end{cases}$
性质：指数分布是无记忆性的，即 $P (X > s + t ∣ X > s) = P (X > t)$ ，表示一个事件发生的概率与过去的发生情况无关。广泛应用于等待时间模型中，如排队理论和生存分析。

3. 正态分布 (Normal Distribution)

定义：如果随机变量 $X$ 服从均值为 $\mu$ ，方差为 $\sigma^2$ 的正态分布，记为 $\sim N(\mu, \sigma^2)$ 。正态分布广泛出现在自然和社会科学中，是最重要的连续分布之一。
概率密度函数： $\frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$
期望： $\mu$
方差： $\text{Var}(X) = \sigma^2$
分布函数：
$\frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{x} e^{-\frac{(t - \mu)^2}{2\sigma^2}} \, dt = \Phi\left(\frac{x - \mu}{\sigma}\right)$
其中， $\Phi(z)$ 是标准正态分布的分布函数。
性质：正态分布的形状为钟形，对称分布，均值和中位数相等。正态分布的线性组合仍为正态分布，在中心极限定理中占有重要地位。

4. 二项分布 (Binomial Distribution)

定义：如果随机变量 $X$ 表示 $n$ 次独立重复试验中成功的次数，且每次试验成功的概率为 $p$ ，则称 $X$ 服从二项分布，记为 $\sim B(n, p)$ 。
概率质量函数： $\binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \ldots, n$
期望： $E (X) = n p$
方差： $\text{Var}(X) = np(1 - p)$
分布函数：
$\sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1 - p)^{n - k}$
其中， $\lfloor x \rfloor$ 表示不超过 $x$ 的最大整数。
性质：二项分布描述了独立重复试验中成功次数的分布情况，是离散分布的一种常见形式，在质量控制、决策分析中广泛应用。

5. 泊松分布 (Poisson Distribution)

定义：泊松分布描述了一定时间或空间内随机事件的出现次数。如果事件发生的平均率为 $\lambda$ ，则 $\sim \text{Poisson}(\lambda)$ 。
概率质量函数： $\frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$
期望： $\lambda$
方差： $\text{Var}(X) = \lambda$
分布函数：
$\sum_{k=0}^{\lfloor x \rfloor} \frac{\lambda^k e^{-\lambda}}{k!}$
其中， $\lfloor x \rfloor$ 表示不超过 $x$ 的最大整数。
性质：泊松分布是描述稀有事件的分布，通常用来建模单位时间或空间中的事件数，例如电话呼叫数、事故发生数等。泊松分布可视为二项分布在试验次数 $\to \infty$ 且成功概率 $\to 0$ 时的极限。

6. 几何分布 (Geometric Distribution)

定义：几何分布描述了在独立重复试验中首次成功所需的试验次数。如果每次试验成功的概率为 $p$ ，则 $\sim \text{Geo}(p)$ 。
概率质量函数： $p)^{k-1} p, \quad k = 1, 2, \ldots$
期望： $\frac{1}{p}$
方差： $\text{Var}(X) = \frac{1 - p}{p^2}$
分布函数：
$p)^{\lfloor x \rfloor}$
其中， $\lfloor x \rfloor$ 表示不超过 $x$ 的最大整数。
性质：几何分布是无记忆性的，即 $P (X > s + t ∣ X > s) = P (X > t)$ ，表示首次成功所需的试验次数与过去失败的次数无关。

7. 负二项分布 (Negative Binomial Distribution)

定义：负二项分布描述了在独立重复试验中第 $r$ 次成功所需的试验次数。如果每次试验成功的概率为 $p$ ，则 $\sim \text{NB}(r, p)$ 。
概率质量函数： $\binom{k-1}{r-1} p^r (1 - p)^{k-r}, \quad k = r, r+1, \ldots$
期望： $\frac{r}{p}$
方差： $\text{Var}(X) = \frac{r(1 - p)}{p^2}$
分布函数：
$\sum_{k=r}^{\lfloor x \rfloor} \binom{k-1}{r-1} p^r (1 - p)^{k-r}$
其中， $\lfloor x \rfloor$ 表示不超过 $x$ 的最大整数。
性质：负二项分布是几何分布的推广，描述了多次成功所需的试验次数。

8. 超几何分布 (Hypergeometric Distribution)

定义：超几何分布描述了从有限总体中不放回抽样的情况下，成功次数的分布。设总体中有 $N$ 个元素，其中 $K$ 个是成功的，抽取 $n$ 个元素，则 $\sim \text{Hyper}(N, K, n)$ 。
概率质量函数： $\frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}, \quad k = 0, 1, \ldots, \min(n, K)$
期望： $\frac{K}{N}$
方差： $\text{Var}(X) = n \frac{K}{N} \frac{N-K}{N} \frac{N-n}{N-1}$
分布函数：
$\sum_{k=0}^{\lfloor x \rfloor} \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$
其中， $\lfloor x \rfloor$ 表示不超过 $x$ 的最大整数。
性质：超几何分布描述了不放回抽样的情况，与二项分布相比，超几何分布考虑了样本抽取对总体的影响。

期望和方差的推导过程

1. 均匀分布 $\sim U(a, b)$

期望的推导：
$\int_a^b x \cdot \frac{1}{b - a} \, dx = \frac{1}{b - a} \cdot \frac{x^2}{2} \Big|_a^b = \frac{1}{b - a} \cdot \frac{b^2 - a^2}{2} = \frac{a + b}{2}$

方差的推导：
$E(X^2) = \frac{1}{b - a} \cdot \frac{x^3}{3} \Big|_a^b = \frac{1}{b - a} \cdot \frac{b^3 - a^3}{3}$
$\text{Var}(X) = E(X^2) - [E(X)]^2 = \frac{a^2 + ab + b^2}{3} - \left(\frac{a + b}{2}\right)^2 = \frac{(b - a)^2}{12}$

2. 指数分布 $\sim E(\lambda)$

期望的推导：
$\int_0^{\infty} x \cdot \lambda e^{-\lambda x} \, dx = \frac{1}{\lambda}$

方差的推导：
$E(X^2) = \int_0^{\infty} x^2 \cdot \lambda e^{-\lambda x} \, dx = \frac{2}{\lambda^2}$
$\text{Var}(X) = \frac{2}{\lambda^2} - \left(\frac{1}{\lambda}\right)^2 = \frac{1}{\lambda^2}$

3. 正态分布 $\sim N(\mu, \sigma^2)$

期望的推导：
对称性可知，期望为 $\mu$ 。

方差的推导：
由正态分布的性质，方差为 $\text{Var}(X) = \sigma^2$ 。

4. 二项分布 $\sim B(n, p)$

期望的推导：
二项分布可以看作 $n$ 次独立伯努利试验的总和。每次试验成功的概率为 $p$ ，因此 $E (X) = n p$ 。

方差的推导：
二项分布的方差为 $\text{Var}(X) = np(1 - p)$ 。

5. 泊松分布 $\sim \text{Poisson}(\lambda)$

期望的推导：
泊松分布的期望可以通过计算其概率生成函数得出，结果为 $\lambda$ 。

方差的推导：
泊松分布的方差也是 $\text{Var}(X) = \lambda$ 。

6. 几何分布 $\sim \text{Geo}(p)$

期望的推导：
$\sum_{k=1}^{\infty} k (1 - p)^{k-1} p = \frac{1}{p}$

方差的推导：
$E(X^2) = \sum_{k=1}^{\infty} k^2 (1 - p)^{k-1} p = \frac{2 - p}{p^2}$
$\text{Var}(X) = E(X^2) - [E(X)]^2 = \frac{2 - p}{p^2} - \left(\frac{1}{p}\right)^2 = \frac{1 - p}{p^2}$

7. 负二项分布 $\sim \text{NB}(r, p)$

期望的推导：
$\sum_{k=r}^{\infty} k \binom{k-1}{r-1} p^r (1 - p)^{k-r} = \frac{r}{p}$

方差的推导：
$E(X^2) = \sum_{k=r}^{\infty} k^2 \binom{k-1}{r-1} p^r (1 - p)^{k-r} = \frac{r(r+1)(1-p)}{p^2}$
$\text{Var}(X) = E(X^2) - [E(X)]^2 = \frac{r(r+1)(1-p)}{p^2} - \left(\frac{r}{p}\right)^2 = \frac{r(1 - p)}{p^2}$