详细介绍各种常见的分布

最新推荐文章于 2024-04-13 10:28:32 发布

bigbinger

最新推荐文章于 2024-04-13 10:28:32 发布

阅读量1.6w

点赞数 39

分类专栏：概率论随机过程文章标签：机器学习

本文链接：https://blog.csdn.net/wang136958280/article/details/116094979

版权

随机过程同时被 2 个专栏收录

3 篇文章

订阅专栏

概率论

1 篇文章

订阅专栏

写在前面：本文主要介绍常见的分布，如伯努利分布、二项分布、负二项分布、几何分布、超几何分布、泊松分布、正态分布（也称高斯分布）、均匀分布、指数分布、β分布（贝塔分布）、Γ分布（伽马分布）、极值分布，其中前6个为离散随机变量的分布，后6个为连续随机变量的分布。
声明：本文写的较为详细，旨在为那些基础薄弱甚至是零基础的人提供帮助，因此对于有一定的基础的人，可能会觉得过于繁琐甚至是啰嗦。故大家可以根据自己的情况选择性的看。此外，由于个人水平限制，可能存在错误，如有发现错误请留言告知，不胜感激！
—————————————————————————————

1 随机变量

        我们常说的分布基本都是这对随机变量而言的，那么什么是随机变量呢？大部分概率论书中的标准定义为：随机变量表示样本空间上实验结果的实值函数。也就是说随机变量其实是一个函数，这个应该怎么去理解呢？这个定义有三个关键点：一是样本空间，二是实验结果，三是实值函数。我们通过这三点来彻底理解随机变量。样本空间是指随机试验所有可能结果组合的集合。如一个骰（读tou）子，掷一次，所有可能出现的点数为1、2、3、4、5、6，那么样本空间即为这些结果组合的集合 $S = \{ 1,2,3,4,5,6\}$ 。再如你在8:15分到达公共汽车站，你还需要等多久才有汽车才能来？假设公共汽车为15分钟一班的话，那么样本空间即为 $=\{t |0 \leqslant t \leqslant 15 \}$ 。实验结果即是样本空间中的元素，如骰子的点数，你等公共汽车的时间等。而样本空间的子集则构成了随机事件，如骰子点数为1，骰子点数大于4（即对应骰子点数为5或6）。实值函数是指实验结果是一个函数，但这个函数与我们常见的函数有点不一样。首先它是定义在样本空间中的，而非我们常见的实数轴上，即该函数的定于域为样本空间；其次是这个函数取值有一定的规律，这个规律就是概率。
        抛开上面的细节，我们以一种非常简单的、不严谨的说法来解释随机变量，那就是：该变量取值不确定，有多个可能的取值，但每个取值有一定的规律（即概率）。
        了解了随机变量之后，根据随机变量可能取值结果的性质，分为离散随机变量和连续随机变量，前者表示取值结果是离散的，如骰子的点数；后者表示变量取值结果是连续的，如你等公共汽车的时间。

2 随机变量的分布

        所谓的随机变量的分布，即我们用一种统一的描述方法来描述随机变量的可能取值及其取值的规律，这种统一的方法就是**概率质量函数或分布函数或概率密度函数。**因此，这种统一的描述方法必须满足两点：一是能描述清楚随机变量所有可能的取值，二是每个取值对应的概率。我们常说某个随机变量服从某个分布，那就是说明我们通过这个分布可以知道随机变量可以取哪些值以及对应的取值概率。在得到某个分布的分布函数之后，我们还希望初步了解一下这个分布的特点，即随机变量取值的特点或性质，如 期望（ $E [X]$ ）和方差（ $V a r [X]$ ），期望描述的是随着样本趋向于无穷大，该随机变量的平均取值是多少，方差描述的是实际取值与平均取值直接的偏离程度。
        故接下来的讲解也主要围绕 分布函数、期望和方差这三个方面。
        期望和方差的定义具体如下：
（1）离散随机变量
$\sum\limits_x {xP(X = x)}$
$Var[X] = E[{(x - E[x])^2}] = E[{X^2}] - {(E[X])^2}$
（2）连续随机变量
$\int_{ - \infty }^\infty {xf(x)dx}$
$\int_{ - \infty }^\infty {{{\left( {x - E[X]} \right)}^2}f(x)dx}$
注：（1）大写的字母表示随机变量，如 $X$ ，小写的字母表示该随机变量具体取值，如 $x$ 。因此 $X = x$ 表示随机变量 $X$ 取值为 $x$ 。
（2）对于后文提到的伯努利试验，我们将混用事件A发生和试验成功，即这两个表述是同一个意思。

3 离散型随机变量的分布

3.1 伯努利分布（Bernoulli Distribution）

伯努利分布是指实验结果只有两种，如某种情况发生与不发生，病人康复与不康复，硬币的正面或反面，我们一般用0和1来表示这两种结果，因此伯努利分布有时也被称为0-1分布或是两点分布。通常假设事件发生的概率为 $p$ 且 $0 < p < 1$ ，那么不发生的概率是 $1 - p$ （或称之为 $q = 1 - p$ ），即 ${P_r}(X =1) = p$ , ${P_r}(X = 0) =1- p$ 。我们称 $p$ 为伯努利分布的参数。
其相应的概率质量函数（此处注意：所谓的概率质量函数，是专门针对离散随机变量而言，是指随机变量取某个值的可能性，在连续随机变量的分布中，我们一般称之为概率密度函数）为 ${p^x}{(1 - p)^{1 - x}} = \left\{ \begin{array}{l} p{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} x = 1\\ 1 - p{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} x = 0\end{array} \right.$
好了，我们已经描述完了这个随机变量的取值以及它的取值规律，但通常情况下我们还想知道这个随机变量一些基本的性质，即期望和方差。根据前面的计算公式，可得到伯努利分布的期望和方差分别为：
$\sum\limits_x {xP(X = x)}=1*p+0*(1-p) =p$
$Var[X] = E[{X^2}] - {(E[X])^2}=p-p^2=p(1-p)$

3.2 二项分布（Binomial Distribution）

将伯努利分布中的随机试验称为伯努利试验，将该试验的结果从1次推广到 $n$ 次，即形成了二项分布。因此，二项分布是指在 $n$ 次重复试验（此处称为重复试验是因为每一次试验都是完全一样的伯努利试验）中，事件A发生的次数服从的分布。如我们连续掷10次硬币，其中正面朝上的次数？如连续掷3次骰子，点数大于3的次数？
记事件 ${X=k\}$ 表示在 $n$ 次试验中，事件 $X$ 恰好发生 $k$ 次。注意，我们只说了发生 $k$ 次，却没有要求知道这 $k$ 次是具体哪几次。由于伯努利试验中事件发生的概率是 $p$ ，根据排列组合知识，事件发生了 $k$ 次的概率为：
$P\{X=k\}=C_n^k{p^k}{(1-p)^{n - k}}=\left( \begin{array}{l} n\\ k \end{array} \right){p^k}{(1-p)^{n - k}}=\frac{n!}{(n-k)!k!}{p^k}{(1-p)^{n - k}}$
该式也是二项分布的概率质量函数。
二项分布的期望和方差分别为：
$E [X] = n p, V a r [X] = n p (1 - p)$
具体推导过程如下：
$\begin{array}{l} E[X] = \sum\limits_{k = 0}^n {k \cdot P\{ X = k\} } {\kern 1pt} = \sum\limits_{k = 0}^n {k \cdot C_n^k{p^k}{{(1 - p)}^{n - k}}} \\ {\kern 22pt} = \sum\limits_{k = 1}^n {nC_{n - 1}^{k - 1}{p^k}{{(1 - p)}^{n - k}}} = n\sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^k}{{(1 - p)}^{n - k}}} \\ {\kern 22pt} = np\sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} = np{(p + 1 - p)^{n - 1}} = np \end{array}$
其中第三个等号是因为 $\cdot C_n^k=n \cdot C_{n-1}^{k-1}$ ，倒数第二个等号是根据二项展开式 $(a+b)^n=\sum\limits_{k=0}^n{C_n^ka^kb^{n-k}}$ 。
$\begin{array}{l} E[{X^2}] = \sum\limits_{k = 0}^n {{k^2} \cdot P\{ X = k\} } {\kern 1pt} = \sum\limits_{k = 0}^n {{k^2} \cdot C_n^k{p^k}{{(1 - p)}^{n - k}}} \\ {\kern 26pt} = \sum\limits_{k = 1}^n {knC_{n - 1}^{k - 1}{p^k}{{(1 - p)}^{n - k}}} {\kern 1pt} {\kern 1pt} = np\sum\limits_{k = 1}^n {kC_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} \\ {\kern 26pt} = np\left( {\sum\limits_{k = 1}^n {(k - 1)C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} + \sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} } \right)\\ {\kern 26pt} = np\left( {p\sum\limits_{k = 2}^n {(n - 1)C_{n - 2}^{k - 2}{p^{k - 2}}{{(1 - p)}^{n - k}}} + \sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} } \right)\\ {\kern 26pt} = np\left( {p(n - 1) + 1} \right) = np(np+1 - p) \end{array}$
再根据前面推导的方差公式可得：
$D[X]=E[X^2]-(E[X])^2 =np(np-p+1)-(np)^2=np(1-p)$

我们称 $n$ 和 $p$ 为二项分布的参数，因此通常我们用 $\sim B(n,p)$ 来简记随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布。有了这两个参数，我们就可以知道该分布的大致情况。为了让大家更直观的了解二项分布的特点，我用Python做了一个小小的模拟，具体代码如下：

#加载相关库
import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats

from matplotlib import font_manager #加载相关字体模块

#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=
 "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置

for n in range(5,30,5): #此处用for循环来表示试验的总次数
    p = 0.3 #伯努利试验的事件发生概率
    k = np.arange(0,20) #表示在n次试验中发生了k次
    binomial = stats.binom.pmf(k,n,p) #计算P{X=k}
    plt.plot(k, binomial, 'o-',label='n=%i'%n) #画图
    plt.legend() #显示图例
    
plt.title('二项分布:p=0.3',fontproperties=my_font) #图名

plt.xlabel('事件发生次数',fontproperties=my_font) #X轴名称

plt.ylabel('事件发生次数对应的概率',fontproperties=my_font) #Y轴名称

plt.grid(True) #显示网格线

plt.show() #显示所画的图

注：本文所有代码使用的是Python3，每条语句都加了注释，是为了方便没有基础的人理解。
代码运行结果如下图所示：
在这里插入图片描述
在上面的模拟中，我们假设 $p = 0.3$ ，分别模拟了 $n$ 为5、10、15、20、25的情况，在 $n$ 次试验中，我们假设事件发生次数为 $k$ ,我们模拟了 $k$ 从0到20的情况。
从上图中我们发现一个现象，即随着 $n$ 的增大，二项分布的图像越来越像正态分布，这说明我们采取一个足够大的 $n$ ，就可以用二项分布来近似正态分布。其实这点是可以通过严格的数学来证明，本文就不证明了。在实际问题处理中，会经常碰到用二项分布来近似正态分布，使得问题便于求解计算。

3.3 多项式分布（Multinomial Distribution） $\ldots$

        多项式分布在一般的概率书籍提及较少，但其在热力学领域使用较多。二项分布是将一次伯努利试验推广至 $n$ 次试验，每次试验只有两个结果，求其中一个结果发生 $k$ 次的概率，而多项式分布则是每次试验中有 $m$ 个结果（ $m > 2$ ），求 $n$ 次试验中每个结果发生的次数 $k_1,k_2,$ $\ldots$ $k_m$ 的概率（其中 $k_1+k_2+\ldots+k_m=n$ ），因此多项式分布是二项分布的推广。举个具体例子说明一下这个，抛一次硬币，正面朝上的概率，这是伯努利分布；抛 $n$ 次硬币，正面朝上的次数为 $k$ 次的概率，这是二项分布；掷 $n$ 次骰子，出现1点的次数为 $k_1$ ，出现2点的次数为 $k_2$ ，……以及出现6点的次数为 $k_6$ 的概率。
多项式分布的概率质量函数为：
$P({X_1} = {k_1}, \cdots ,{X_m} = {k_m}) = \left\{ \begin{array}{l} \frac{{n!}}{{{k_1}!, \cdots ,{k_m}!}}{p_1^{{k_1}}} \cdots {p_m^{{k_m}}}{\kern 6pt}when{\kern 4pt} \sum\limits_{i = 1}^m {{k_i} = n} \\ 0{\kern 98pt} otherwise \end{array} \right.$
其中， $p_1+\cdots+p_m=1$ 。
        二项分布的概率公式理解起来比较直观，而多项式的概率公式理解起来可能费力一些，下面我们大致讲解一些多项式分布的由来。
首先，针对 $p_1+\cdots+p_m=1$ ，因为一次试验会有 $m$ 个结果，这些结果发生的概率相加为1，这是比较直观的。
其次，我们先推导一个多项式定理：
${({x_1} + {x_2} + \cdots + {x_m})^n} = \sum {\frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}}x_1^{{r_1}} \cdots x_k^{{r_m}}}$
        我们知道 ${(x_1+x_2+\cdots+x_m)^n}$ 是由 $n$ 个 $(x_1+x_2+\cdots+x_m)$ 相乘，根据多项式相乘的规律可知，相乘展开后的结果相当于从这 $n$ 个 $(x_1+x_2+\cdots+x_m)$ 中分别取一个 ${x_i}$ 相乘，因此所有的展开项中肯定有 $x_1^{{r_1}} \cdots x_m^{{r_m}}$ 项，且有 $r_1+\cdots+r_m=n$ 。接下来的问题是 $x_1^{{r_1}} \cdots x_k^{{r_m}}$ 的系数是多少？我们可以这样看待这个问题： $x_1^{{r_1}} \cdots x_m^{{r_m}}$ 就相当于我们从 $n$ 个式子中选取 $r_1$ 个 $x_1$ ，选取 $r_2$ 个 $x_2$ ……选取 $r_m$ 个 $x_m$ ，这样的选法有多少种呢？根据排列组合相关知识，可知选法有： $\begin{array}{l} C_n^{{r_1}}C_{n - {r_1}}^{{r_2}} \cdots C_{n - {r_1} - {r_2} - \cdots {r_{m - 1}}}^{{r_m}} = \frac{{n!}}{{{r_1}!(n - {r_1})!}}\frac{{(n - {r_1})!}}{{{r_2}!(n - {r_1} - {r_2})!}} \cdots \frac{{(n - {r_1} - \cdots {r_{m - 1}})!}}{{{r_m}!(n - {r_1} - {r_2} \cdots {r_m})!}}\\ = \frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}} \end{array}$
注意因为有 $r_1+\cdots+r_m=n$ ，所以第一个等式中的最后一项的分母为 $r_m!$ 。所以我们得到 $x_1^{{r_1}} \cdots x_m^{{r_m}}$ 的系数为 $\frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}}$ ，而 $r_1,\cdots r_m$ 的取值是从0到 $n$ ，所以上述多项式的展开式需求和，即可得上述的多项式定理（令 $m = 2$ 时即可得到大家熟悉的二项式展开式的形式） ${({x_1} + {x_2} + \cdots + {x_m})^n} = \sum {\frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}}x_1^{{r_1}} \cdots x_m^{{r_m}}}$
        有了上述的二项式定理，我们回到多项式的概率公式中来，因为我们做 $n$ 次试验，每次试验有 $m$ 种结果，其对应的发生概率分别为 $p_1,\cdots p_m,$ 那么 $n$ 次试验中结果1发生的次数为 $k_1$ ，结果2发生的次数为为 $k_2$ ，结果 $m$ 发生的次数为 $k_m$ 的概率就相当于上述多项式定理中的某一项，因此可得多项式的概率公式。
        因为多项式分布的随机变量不止一个（有 $X_1,\cdots X_m$ 个），所以相比于其他分布的期望和方差，它还多一个协方差。由于该分布在经管领域使用不多，因此我们简单的给出期望、方差以及协方差（ $C o v$ ）的结果，需要具体推导过程的请留言。
        因为多项式分布是二项分布的推广，因此其期望和方差和二项分布一样：
$E[X_i]=np_i$ $D[X_i]=np_i(1-p_i)$ $Cov(X_i,X_j)=E(X_i\cdot X_j)-E(X_i)\cdot E(X_j)=-np_ip_j$

3.3 负二项分布（Negative Binomial Distribution）

从字面意义上理解，负二项分布和二项分布只有一字之差，那什么叫负二项分布（也称帕斯卡分布）呢？二项分布是指在 $n$ 次试验中事件A发生的次数（或称试验成功的次数），而负二项分布是指当事件A累积没有发生 $r$ 次时，事件A发生的次数。它的试验过程是这样的：将伯努利试验做了 $X = k + r$ 次，在前 $k + r - 1$ 次试验中，事件A发生了 $k$ 次，没有发生的次数是 $r - 1$ ，而在第 $k + r$ 次试验时，事件A刚好又没有发生，此时事件A累积没有发生的次数为 $r$ 次，而 $k$ 即服从负二项分布，记为 $K \sim N B (r, p)$ ， $r, p$ 为负二项分布的参数。
注意：关于负二项分布，上面的定义不是唯一的。目前常见的大概有以下四种：（1）每次成功率为 $p$ 的实验，达到 $r$ 次成功所需的试验次数，此时该随机变量最小取值为 $r$ ；（2）每次成功率为 $p$ 的实验，达到 $r$ 次成功前的失败次数，此时随机变量最小取值为0，本文采用这种定义；（3）每次失败率为 $p$ 的实验，达到 $r$ 次成功所需的试验次数，随机变量的最小取值为 $r$ ；（4）每次失败率为 $p$ 的实验，达到 $r$ 次成功前的失败次数，随机变量的最小取值为0。其实前面两种和后面两种只是把试验成功的概率和失败的概率互换了一下而已。
根据上面的分析过程，我们可以得到负二项分布的概率质量函数为：
$P\{ X = k\} = C_{k + r - 1}^k{p^k}{(1 - p)^r} = \left( \begin{array}{l} k + r - 1\\ k \end{array} \right){p^k}{(1 - p)^r}$
我们将 $C_{k + r - 1}^k$ 展开得：
$\begin{array}{l} C_{k + r - 1}^k = \frac{{(k + r - 1)!}}{{k!(r - 1)!}} = \frac{{(k + r - 1)(k + r - 2) \cdots (r)}}{{k!}} \\ ={( - 1)^k}\frac{{( - r)( - r - 1)( - r - 2) \cdots ( - r - k + 1)}}{{k!}} \\ ={( - 1)^k} \left( \begin{aligned} -r\\k \end{aligned} \right) \end{array}$
也正是因为上面二项式系数部分又负的，所以才叫负二项分布。
其对应的期望和方差分别为：
$\begin{array}{l} E[X] = \sum\limits_{k = 0}^\infty {kP\{ X = k\} } \\ = \sum\limits_{k = 0}^\infty {kC_{k + r - 1}^k{p^k}{{(1 - p)}^r}} \\ = \sum\limits_{k = 0}^\infty {k\frac{{\left( {k + r - 1} \right)!}}{{k!(r - 1)!}}{p^k}{{(1 - p)}^r}} \\ = \sum\limits_{k = 0}^\infty {\frac{{(k + r - 1)!}}{{(k - 1)!(r - 1)!}}{p^k}{{(1 - p)}^r}} \\ = \sum\limits_{k = 0}^\infty {\frac{{(k + r - 1)(k + r - 2) \cdots (r + 1)(r)}}{{(k - 1)!}}p{{(1 - p)}^{ - 1}}{p^{k - 1}}{{(1 - p)}^{r + 1}}} \\ = rp{(1 - p)^{ - 1}}\sum\limits_{k = 0}^\infty {\frac{{(k + r - 1)(k + r - 2) \cdots (r + 1)}}{{(k - 1)!}}{p^{k - 1}}{{(1 - p)}^{r + 1}}} \\ = \frac{{rp}}{{1 - p}}\sum\limits_{k = 0}^\infty {\frac{{((k - 1) + (r + 1) - 1)!}}{{r!(k - 1)!}}{p^{k - 1}}{{(1 - p)}^{r + 1}}} \\ = \frac{{rp}}{{1 - p}} \end{array}$
上述推导中最为关键的是倒数第二个等于号中，那串求和计算结果是为1，因此才有了最后一个等式。至于为什么等于1，本人还在查资料，后面会进行更正。
方差让同样的方法即可推导出，先求 $E[X^2]$ ，再用公式即可。
注意：此处有很多资料推导的结果是 $\frac{r}{p}$ ,那是因为他将事件A发生概率记为 $p$ ，当事件刚好发生 $r$ 次时，总的试验次数为多少？也即使用的定义是上面说的第一个定义，而本文采用的是第二个定义。
关于负二项分布的Python模拟，这里就不模拟了，因为其分布图像和二项分布是差不多形状的。

3.4 几何分布（Geometric distribution）

几何分布是指重复进行成功率为 $p$ 伯努利试验，进行到第 $k$ 次试验才首次成功。回忆上面的注解中关于负二项分布的第二个定义，发现几何分布是负二项分布中 $r = 1$ 的特例。几何分布在实际生活中也比较常见，如某人打靶命中率为 $p$ ，那么他打多少次才能打中靶？如加工某个零件，其不合格率为0.05，那么首次加工出不合格零件时已加工了多少个零件？我们一般将几何分布记为 $X \sim G E (p)$ ， $p$ 是其参数。
几何分布的概率质量函数或分布列为：
$P\{ X = k\} = {(1-p)^{k-1}}{ p}，k=1,2,\cdots$
几何分布的期望和方差分别为：
$\sum\limits_{k = 1}^\infty {k(1-p)^{k-1}}{p}=p \sum\limits_{k = 1}^\infty {k(1-p)^{k-1}}$
令 $f(p)=-(1-p)^k$ ，则 $f (p)$ 对 $p$ 求导得： $k(1-p)^{k-1}$ ，因此有
$\sum\limits_{k = 1}^\infty {k(1-p)^{k-1}}=p\sum\limits_{k=1}^\infty{{f^{'}}(p)} =-p\left(\sum\limits_{k=1}^\infty{-f(p)}\right)^{'}$
令 $q = 1 - p$ ，然后根据等比数列的前 $n$ 项和公式有：
$\sum\limits_{k=1}^{n}(1-p)^k=\sum\limits_{k=1}^{n}q^k=\frac{q-q^{n+1}}{1-q}=\frac{q(1-q^n)}{1-q}$
因为 $0 < q < 1$ ，故当 $\to \infty$ 时， $q^n\to 1$ ，因此 $\sum\limits_{k=1}^\infty q^k=\frac{q}{1-q}$ ，所以有：
$\left(\sum\limits_{k=1}^\infty{-f(p)}\right)^{'}=\left(\sum\limits_{k=1}^\infty(1-p)^k\right)^{'}=\left(\frac{1-p}{p}\right)^{'}=-\frac{1}{p^2}$
综合以上有：
$E[X]=-p(-\frac{1}{p^2})=\frac{1}{p}$
再利用求方差公式可得方差为：
$D[X]=\frac{1-p}{p^2}$
用Python模拟几何分布的概率质量函数为如下所示：
代码为：

#加载相关库
import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
p1=0.3
p2=0.5
p3=0.8
n = np.arange(0,10)
geometric1=stats.geom.pmf(n,p1)
geometric2=stats.geom.pmf(n,p2)
geometric3=stats.geom.pmf(n,p3)
plt.plot(n, geometric1, 'o-',label='p=0.3')#画图
plt.plot(n, geometric2, 'o-',label='p=0.5')
plt.plot(n, geometric3, 'o-',label='p=0.8')
plt.legend() #显示图例
plt.title('几何分布模拟',fontproperties=my_font) #图名
plt.xlabel('事件发生次数',fontproperties=my_font) #X轴名称
plt.ylabel('事件发生次数对应的概率',fontproperties=my_font) #Y轴名称
plt.grid(True) #显示网格线
plt.show()

模拟结果为：
在这里插入图片描述

3.5 超几何分布（Hypergeometric Distribution）

        前面介绍的伯努利分布、二项分布、负二项分布都是建立在伯努利试验的基础上，而即将介绍的超几何分布、泊松分布则与伯努利试验无关了。超几何分布通常是指从 $N$ 个有限的物品中不放回的抽出 $n$ 个物品（假设 $N$ 个物品中含有某种指定物品的个数为 $M$ 个），那么其中指定的物品有多少个？具体例子如：黑球和白球一共有 $N$ 个，其中黑球有 $M$ 个，问抽 $n$ 个球中黑球的个数？再如零件的合格率检查，在一批零件中抽检 $n$ 个零件，其中不合格零件的个数是多少？
我们一般记超几何分布为 $X \sim H (n, M, N)$
因为 $N$ 个球中，每个球被抽中是等概率的，所以有：
（1）从 $N$ 个球中抽 $n$ 个球的概率为 $C_{N}^n$ ；
（2）假设 $n$ 个球中黑球的个数为 $k$ ，它们被抽到的概率为 $C_{M}^k$ ;
（3） $n$ 个球中白球的个数为 $n - k$ ，它们被抽到的概率为 $C_{N-M}^{n-k}$ ;
故该随机变量的分布律为： $P(X=k)=\frac{C_{M}^kC_{N-M}^{n-k}}{C_{N}^n}$ ，其中 $k=0,1,2,\cdots,n$
超几何分布的期望和方差分别为：
$\sum\limits_{k = 0}^m k\frac{C_{M}^kC_{N-M}^{n-k}}{C_{N}^n}=\frac{1}{C_{N}^n} \sum\limits_{k = 0}^m kC_{M}^kC_{N-M}^{n-k}$
因为有 $kC_{M}^k=\frac{kM!}{k!(M-k)!}=\frac{M(M-1)!}{(k-1)!(M-k)!}=MC_{M-1}^{k-1}$ 以及范德蒙恒等式 $（ V a n d e r m o n d e^{'} s i d e n t i t y ）$ ：
$C_{n+m}^k=\sum\limits_{i=0}C_n^iC_m^{k-i}$
所以有：
$\begin{array}{l} \sum\limits_{k = 0}^m kC_{M}^kC_{N-M}^{n-k}=0C_{M}^0C_{N-M}^{n}+1C_{M}^1C_{N-M}^{n-1}+\cdots+mC_{M}^mC_{N-M}^{n-m}\\ = MC_{M-1}^0C_{N-M}^{n-1}+ MC_{M-1}^1C_{N-M}^{n-2} +\cdots+ MC_{M-1}^{m-1}C_{N-M}^{n-m} \\ =M\left(C_{M-1}^0C_{N-M}^{n-1}+ C_{M-1}^1C_{N-M}^{n-2} +\cdots+ C_{M-1}^{m-1}C_{N-M}^{n-m} \right) \\ =M\sum\limits_{k=0}^{m-1}C_{M-1}^{k}C_{N-M}^{n-1-k}\\ =MC_{N-1}^{n-1}\end{array}$
故期望计算结果为：
$E[X]=\frac{1}{C_N^n}MC_{N-1}^{n-1}=\frac{nM}{N}$
方差为 $D[X]=\frac{nM}{N}\left(1-\frac{M}{N}\right)\frac{N-n}{N-1}$ ，具体推导过程此处略，如有需要请留言我再补上。
        回顾一下二项分布的期望和方差（分别为 $n p$ 、 $n p q$ ），我们将会发现超几何分布和二项分布有一点点关联。在总数为 $N$ 个球，黑球为 $M$ 个，那么每个黑球被抽到的概率为 $\frac{M}{N}$ ，如果将这个概率作为二项分布中的伯努利试验成功的概率 $p$ ，你就会发现超几何分布和二项分布的期望形式是一样的，但方差的形式有一点点不一样，超几何分布多了 $\frac{N-n}{N-1}$ 这一项。为什么会多这一项，是因为超几何分布是不放回的抽取，随着抽取的次数增加，随机变量的取值范围也逐步减小，从而导致方差的减小。
        同样地，我们用Python去模拟超几何分布的情况。代码如下：

#加载相关库
import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
for n in range(10,25,5):#用for循环确定抽取的次数
    N=100 #物品总数
    M=40 #具有某种属性物品的总数
    k = np.arange(0,n) #抽取n次，抽到具有该属性物品的个数
    hypergeom=stats.hypergeom.pmf(k,N,M,n) #用stats.hypergeom.pmf求概率
    plt.plot(k, hypergeom, 'o-',label='N=100,M=40,n=%i'%n)#画图

plt.legend() #显示图例
plt.title('超几何分布模拟',fontproperties=my_font) #图名
plt.xlabel('抽到指定物品的个数',fontproperties=my_font) #X轴名称
plt.ylabel('抽到该个数指定物品对应的概率',fontproperties=my_font) #Y轴名称
plt.grid(True) #显示网格线
plt.show()

模拟结果如下图：
在这里插入图片描述
通过上图，可以看出超几何分布和二项分布的模拟图具有一定的相似性，这也从直观上验证了两种分布在期望和方差上的相似性。

3.6 泊松分布（Poisson Distribution）

泊松分布应该是最为常见的离散分布了，在很多领域都有应用。在概率论书籍中，关于泊松分布都是直接给出了其分布律，并没有详细说明该分布律的由来。关于这点，本人大力推荐看博主“马同学图解数学”写的关于泊松的理解《如何通俗易懂理解泊松分布》，该博主对泊松分布解释的非常到位，因此本文就不作详细介绍了。
一些常见的泊松分布例子为：
（1）某个商店在某段时间内到来的顾客人数；
（2）一天中拨错电话号码的总数；
（3）早餐店每天卖出早餐的份数；
（4）一本书中某页出现的印刷错误数量；
（5）某个城市居民活到100岁的人数；
（6）某放射性材料在一定时期内放射出来的α-粒子数；
（7）一年中联邦司法系统中空缺的位置数；
泊松分布的分布律为：
$P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,2,\cdots$
其中 $\lambda$ 称为泊松分布的参数，描述的是单位时间内（或单位面积内）随机事件平均发生的次数。
根据分布律推导泊松分布的期望与方差分别为：
$\begin{array}{l} E[X]=\sum\limits_{k=0}^{\infty}ke^{-\lambda}\frac{\lambda^k}{k!}=e^{-\lambda}\sum\limits_{k=1}^{\infty}\frac{\lambda^k}{(k-1)!}=\lambda e^{-\lambda}\sum\limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!} \end{array}$
回顾泰勒展开式有：
$e^x=1+x+\frac{x^2}{2!}+\cdots+\frac{x^n}{n!}+\cdots=\sum\limits_{n=1}^{\infty}\frac{x^{n-1}}{(n-1)!}$
所以 $E[X]=\lambda e^{-\lambda}\sum\limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{-\lambda}e^{\lambda}=\lambda$
利用方差与期望的公式可求得方差为 $D[X]=\lambda$
同样地，我们用Python去模拟超几何分布的情况。代码如下：

#泊松分布
#加载相关库
import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
for r in range(1,5):#用for循环确定泊松分布的参数λ
    n = np.arange(0,20) #随机变量的取值
    poisson=stats.poisson.pmf(n,r) #用stats.poisson.pmf求概率
    plt.plot(n, poisson, 'o-',label='λ=%i'%r)#画图

plt.legend() #显示图例
plt.title('泊松分布模拟',fontproperties=my_font) #图名
plt.xlabel('事件发生的次数',fontproperties=my_font) #X轴名称
plt.ylabel('事件发生次数对应的概率',fontproperties=my_font) #Y轴名称
plt.grid(True) #显示网格线
plt.show()

模拟结果如下图：
在这里插入图片描述
可以发现，上图和二项分布的模拟图非常接近，事实上，当二项分布中的 $n$ 足够大而 $p$ 足够小时，此时二项分布可以近似看成为参数为 $\lambda=np$ 的泊松分布。为了验证这点，假设随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，且有 $\lambda=np$ ，则：
$\begin{array}{l} P(X=k)=\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \\ =\frac{n(n-1)\cdots(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ =\frac{n(n-1)\cdots(n-k+1)}{n^k} \frac{\lambda^k}{k!} \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k} \end{array}$
当 $n$ 足够大时，有：
$(1-\frac{\lambda}{n})^n \approx e^{-\lambda},\frac{n(n-1)\cdots(n-k+1)}{n^k}\approx1,(1-\frac{\lambda}{n})^k \approx 1$
即有： $P(X=k)=\frac{n(n-1)\cdots(n-k+1)}{n^k} \frac{\lambda^k}{k!} \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k} \approx e^{-\lambda}\frac{\lambda^k}{k!}$

4 连续型随机变量的分布

连续型随机变量是针对离散随机变量而言。离散型随机变量的取值是可数的无限的或是有限个，而连续型随机变量的取值是无限不可数的，如公交车到站的具体时间，晶体管的寿命，某个中学所有学生的身高等。

4.1 正态分布（Normal Distribution）

正态分布又称高斯分布（Gauss Distribution，主要在常见于外文文献），其原因是正态分布虽然由法国数学家棣莫弗（Abraham de Moivre）于1733年首次提出，但德国数学家高斯（Gauss）率先将其应用于天文研究，而他的这项工作对后世影响极大，因此很多人将其称为“高斯分布”。正态分布是我们日常生活最为常见的分布，如全国中学生的身高、学生的成绩，某批零件的质量等等。一般记正态分布为 $X∼N(\mu,\sigma^2)$
与离散随机变量不同的是，我们一般用累积分布函数（Cumulative Distribution Function，CDF）和概率密度函数（Probability Density Function，PDF）来描述一个连续随机变量的分布情况。通常，将概率密度函数在样本空间中积分即可得到累积分布函数，故实际中我们只需要知道这两个函数的其中之一即可。正态分布的概率密度函数为：
$\frac{1}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {{(x - \mu )}^2}}}{{2{\sigma ^2}}}}}$
其中， $\mu$ 是随机变量的均值， $\sigma^2$ 为随机变量的方差，具体证明过程如下：
由期望公式得： $\int_{ - \infty }^\infty {xf(x)dx = \int_{ - \infty }^\infty {x\frac{1}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {{(x - \mu )}^2}}}{{2{\sigma ^2}}}}}} } dx$
令 $y=x-\mu$ ，则上述等式变为：
$\begin{array}{l} E[X] = \int_{ - \infty }^\infty {(y + \mu )\frac{1}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy\\ = \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy + \int_{ - \infty }^\infty {\frac{\mu }{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy\\ = \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy + \frac{\mu }{{\sqrt {2\pi } \sigma }}\int_{ - \infty }^\infty {{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy \end{array}$
令 ${I_1} = \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy$ ， ${I_2} = \int_{ - \infty }^\infty {{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy$ 。注意到 ${I_1}$ 中的被积函数 ${\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}}$ 是奇函数（即 $f (x) = - f (x)$ ，关于原点对称），而奇函数在对称区间内的积分为0（回顾积分的本质是被积函数与坐标轴形成的区域的面积，那么关于原点对称的两个区域面积正好是一正一负，相加即为0），因此我们只需要关注 ${I_2}$ 即可。下面进行 ${I_2}$ 的求解。

${I_2}^2={I_2}*{I_2}=\int_{ - \infty }^\infty {\int_{ - \infty }^\infty {{e^{\frac{{ - {x^2}}}{{2{\sigma ^2}}}}}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dx} dy$
将坐标转换为极坐标： $x=rcos\theta$ , $y=rsin\theta$ ,代入到上面的式子可得：
$\begin{array}{l} {I_2}^2=\int_{ - \infty }^\infty {\int_{ - \infty }^\infty {{e^{\frac{{ - {x^2}}}{{2{\sigma ^2}}}}}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dx} dy=\int_{0 }^{2\pi} {\int_{0 }^\infty {{e^{\frac{{ - {r^2}}}{{{2\sigma ^2}}}}}} rdr} d\theta \\ \kern 15pt =2\pi \int_{0}^{\infty}e^{\frac{-r^2}{2\sigma^2}}\frac{1}{2}dr^2=\pi \left[(-2\sigma^2)e^{\frac{-r^2}{2\sigma^2}}\right]_{0}^{\infty}=2\pi \sigma^2 \end{array}$
因此， ${I_2}=\sqrt{2\pi}\sigma$ ，将其带回到期望公式 $E [X]$ 可得：
$\int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy + \frac{\mu }{{\sqrt {2\pi } \sigma }}\int_{ - \infty }^\infty {{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy=0+ \frac{\mu }{{\sqrt {2\pi } \sigma }}*\sqrt {2\pi } \sigma =\mu$
利用方差公式可以推出正态分布的方差为 $\sigma^2$ 。
上面描述的是一般正态分布，在实际中我们常见的是标准正态分布，即 $X ～ N (0, 1)$ 。标准正态分布在假设误差分布时会经常遇见，且标准正态分布的概率取值已经被编制成了标准正态分布表，在计算时直接查表即可。而将一般正态分布转化为标准正态分布的过程是：
若 $X∼N(\mu,\sigma^2)$ ，令 $Y=\frac{X-\mu}{\sigma}$ ，则 $Y ～ N (0, 1)$ ，该证明过程比较简单，直接将 $Y$ 的表达式代入到 $X$ 的概率密度函数中即可。
同样地，我们用Python去模拟超几何分布的情况。代码如下：

import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
x=np.linspace(-10,10,100000)
y1=stats.norm.pdf(x,0,1)
y2=stats.norm.pdf(x,0,2)
y3=stats.norm.pdf(x,1,1)
y4=stats.norm.pdf(x,1,2)
y5=stats.norm.pdf(x,3,1)
y6=stats.norm.pdf(x,5,3)
plt.plot(x, y1,label='$\mu=0,\sigma^2=1$')
plt.plot(x, y2,label='$\mu=0,\sigma^2=2$')#画图
plt.plot(x, y3,label='$\mu=1,\sigma^2=1$')#画图
plt.plot(x, y4,label='$\mu=1,\sigma^2=2$')#画图
plt.plot(x, y5,label='$\mu=3,\sigma^2=1$')#画图
plt.plot(x, y6,label='$\mu=5,\sigma^2=3$')#画图
plt.legend() #显示图例
plt.title('正态分布概率密度函数',fontproperties=my_font) #图名
plt.grid(True) #显示网格线
plt.show()

模拟结果如下图：
在这里插入图片描述通过上述模拟，可以看出正态分布的图像以下两个明显的特点：
（1）正态分布的图像是对称的，其对称轴为 $\mu$ ，即 $\mu$ 控制了正态分布图像的位置；
（2）正态分布图像是“高瘦”还是“矮胖”，取决于 $\sigma$ ， $\sigma$ 越大，图像越“矮胖”。

4.2 均匀分布（Uniform Distribution）

均匀分布也称为矩形分布，一般记为 $X \sim U (a, b)$ 。它是一种对称的概率分布，即在相同的长度内，取值概率是相等的。在经管领域，均匀分布通常用来描述消费者对商品基本价值估计的分布。均匀分布的概率密度函数为：
$\left\{ \begin{array}{l} \frac{1}{{b - a}}{\kern 5pt} a < x < b\\ 0{\kern 20pt} otherwise\end{array} \right.$
对概率密度函数进行积分即可得到累积分布函数为：
$\left\{ \begin{array}{l} 0{\kern 20pt} x < a\\ \frac{{x - a}}{{b - a}}{\kern 5pt} a \le x \le b\\ 1{\kern 20pt} x > b \end{array} \right.$

        其期望和方差比较容易求解，此处直接给出： $E[X]=\frac{a+b}{2}$ , $D[X]=\frac{(b-a)^2}{12}$
        关于均匀分布的概率密度函数图像，此处就不模拟了，因为它就是在 $[a, b]$ 上的一条直线。

4.3 指数分布（Exponential Distribution）

        指数分布常用来描述独立随机事件发生的时间间隔。常见的应用有：泊松过程中两个事件发生的间隔时间、电子元器件的可靠性研究中发生缺陷数或系统故障数的测量结果、大型系统的平均故障间隔时间等。我们记指数分布为： $X∼E(\lambda)$ ，其中参数 $\lambda$ 常称为率参数（rate parameter），表示单位时间内事件发生的次数。指数分布的典型特征是“无记忆性”，这点我们在后面将予以详细说明。指数分布的概率密度函数（pdf）和累积分布函数（cdf）分别为：
$\left\{ \begin{array}{l} \lambda {e^{ - \lambda x}}{\kern 6pt} x > 0\\ 0{\kern 26pt} x \le 0 \end{array} \right.$
$\left\{ \begin{array}{l} 1- {e^{ - \lambda x}}{\kern 6pt} x \ge 0\\ 0{\kern 35pt} x< 0 \end{array} \right.$
        其期望和方差也比较容易求解：
$\begin{array}{l} E[X] = \int_{ - \infty }^\infty {xf(x)dx} = \int_0^\infty {x\lambda {e^{ - \lambda x}}dx} = \int_0^\infty { - xd{e^{ - \lambda x}}} \\ {\kern 22pt} {\kern 1pt} = - x{e^{ - \lambda x}}\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \int_0^\infty {{e^{ - \lambda x}}dx} = - \frac{1}{\lambda }{e^{ - \lambda x}}\left| \begin{array}{l} \infty \\ 0 \end{array} \right. = \frac{1}{\lambda } \end{array}$
注意，上面的积分用到了分部积分法。下面求解方差：
$E[X^2] = \int_{ - \infty }^\infty x^2f(x)dx = \int_{ 0 }^\infty x^2\lambda {e^{ - \lambda x}}dx=\frac{2}{\lambda^2}$
代入到方差公式中可知：
$D[X]=E[X^2]-(E[X])^2=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2}$
前面我们说指数分布有一个很重要的性质是“无记忆性”（也称“无后效性”和“马尔科夫性”），用数学语言描述是：
$s\left| {T > t} \right.) = P(T > s) {\kern 10pt} s,t>0$
        我们来证明上述等式：
$\begin{aligned} P(T > t + s\left| {T > t} \right.)&=\frac{P(T>s+t,T>t)}{P(T>t)}=\frac{P(T>s+t)}{P(T>t)} \\ &=\frac{1-(1-e^{-\lambda(t+s)})}{1-(1-e^{-\lambda t})}=e^{-\lambda s}=P(T>s) \end{aligned}$
        那么怎么去理解“无记忆性”呢？我们通过两个例子来说明。一是电子元器件的使用寿命：假设 $T$ 是某个元件的寿命，已知该元件已经使用了 $t$ 小时，那么它至少再使用 $t + s$ 的条件概率和它从0时开始，至少使用 $s$ 小时的概率是相等的。另一个例子是银行工作人员等待客户：假设银行工作人员在等待客户上门办理业务，客户到达的过程一般是泊松过程，那么连续的两个客户到达的间隔时间服从指数分布，那么“无记忆性”是指无论前一个客户什么时间到达的，后一个客户到达的时间都与其无关。
        下面通过Python来看看指数分布的形状，具体代码如下：

#加载相关库
import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
x=np.linspace(0,5000,10000)
lambda1,lambda2,lambda3=1/400,1/600,1/800
y1=stats.expon.pdf(x,scale=1/lambda1)
y2=stats.expon.pdf(x,scale=1/lambda2)
y3=stats.expon.pdf(x,scale=1/lambda3)

plt.plot(x, y1,label='$\lambda_1=1/400$')
plt.plot(x, y2,label='$\lambda_2=1/600$')#画图
plt.plot(x, y3,label='$\lambda_3=1/800$')#画图

plt.legend() #显示图例
plt.title('指数分布概率密度函数',fontproperties=my_font) #图名
plt.grid(True) #显示网格线
plt.show()

结果如下图：
在这里插入图片描述
通过上图可以看出，指数分布的参数 $\lambda$ 越大，图像倾斜的越厉害，其均值越小。

4.4 β分布（Beta Distribution，贝塔分布）

        和前面所说的分布不同的是， $\beta$ 分布更多的是作为伯努利分布和二项分布的共轭先验分布而存在，至于什么是共轭先验分布，请参见共轭先验分布（本人还在编辑中，所以暂时该链接为空）。简单的来说， $\beta$ 分布就是概率的概率分布，例如伯努利试验中，事件成功的概率为 $p$ ，从贝叶斯派的观点来看（这里涉及概率的两大学派：频率学派和贝叶斯学派），这个 $p$ 是不确定的，也是一个随机变量，它服从的分布就是 $\beta$ 分布。另外， $\beta$ 分布不是指某个具体分布，而是指在 $(0, 1)$ 之间的一系列连续分布，这是因为 $\beta$ 分布有两个参数 $\alpha,\beta$ ，这两个参数的不同取值决定不同的概率密度函数。因为 $\beta$ 分布限制在 $(0, 1)$ 之间，因此，取值为 $(0, 1)$ 之间的随机变量才有可能服从 $\beta$ 分布，一个典型的例子是空气的相对湿度（实际含水量与空气的最大含水量（饱和含水量）的比值）。 $\beta$ 分布的概率密度函数为：
$f(x;\alpha ,\beta ) =\frac{1}{B(\alpha,\beta)}{x^{\alpha - 1}}{(1 - x)^{\beta - 1}}= \frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^{\alpha - 1}}{(1 - x)^{\beta - 1}}$
其中， $\alpha,\beta>0$ ， $\frac{1}{B(\alpha,\beta)}=\int_0^1{{t^{\alpha - 1}}{(1 - t)^{\beta - 1}}}$ , $\Gamma (\alpha ){\rm{ = }}\int_0^\infty {{t^{\alpha - 1}}{e^{ - t}}dt}$ （称为Gamma函数）。那为什么 $\beta$ 分布的概率密度函数长成这个样子，本人推荐看认识beta函数这篇博文，该博主讲解的非常详细。
        下面来求解 $\beta$ 分布的期望与方差：
$\begin{aligned} E[X] &= \int_0^1 {x\frac{1}{{B(\alpha ,\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} = \frac{1}{{B(\alpha ,\beta )}}\int_0^1 {{x^\alpha }{{(1 - x)}^{\beta - 1}}dx}\\ &= \frac{{B(\alpha + 1,\beta )}}{{B(\alpha ,\beta )}} = \frac{{\Gamma (\alpha + 1)\Gamma (\beta )}}{{\Gamma (\alpha + \beta + 1)}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}} = \frac{{\Gamma (\alpha + 1)}}{{\Gamma (\alpha + \beta + 1)}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )}}\\ &=\frac{\int_0^\infty {{t^{\alpha }}{e^{ - t}}dt}\cdot \int_0^\infty {{t^{\alpha+ \beta - 1}}{e^{ - t}}dt}}{\int_0^\infty {{t^{\alpha+ \beta }}{e^{ - t}}dt}\cdot \int_0^\infty {{t^{\alpha - 1}}{e^{ - t}}dt}}=\frac{\alpha }{{\alpha + \beta }} \end{aligned}$
最后一个等式用到分部积分法。
$\begin{aligned} E[{X^2}] &= \int_0^1 {{x^2}\frac{1}{{B(\alpha ,\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} = \frac{1}{{B(\alpha ,\beta )}}\int_0^1 {{x^{\alpha + 1}}{{(1 - x)}^{\beta - 1}}dx} \\ &= \frac{{B(\alpha + 2,\beta )}}{{B(\alpha ,\beta )}} = \frac{{\Gamma (\alpha + 2)\Gamma (\beta )}}{{\Gamma (\alpha + \beta + 2)}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}} = \frac{{(\alpha + 1)\alpha }}{{(\alpha + \beta + 1)(\alpha + \beta )}} \end{aligned}$
所以有 $\begin{aligned}D[X]&=E[X^2]-(E[X])^2=\frac{{(\alpha + 1)\alpha }}{{(\alpha + \beta + 1)(\alpha + \beta )}}-(\frac{\alpha }{{\alpha + \beta }})^2 \\&=\frac{\alpha \beta}{(\alpha+ \beta+1)(\alpha+ \beta)^2}\end{aligned}$
        下面用Python画一下 $\beta$ 分布的概率密度函数，具体代码如下：

#加载相关库
import numpy as np 
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
x=np.linspace(0,1,1000)
alpha=[0.7,1,2,3,4,5] #确定参数alpha的取值
beta=[0.7,1,2,3,4,5]#确定参数beta的取值
y1=stats.beta(alpha[0], beta[0]).pdf(x)
y2=stats.beta(alpha[1], beta[1]).pdf(x)
y3=stats.beta(alpha[1], beta[2]).pdf(x)
y4=stats.beta(alpha[1], beta[3]).pdf(x)
y5=stats.beta(alpha[3], beta[4]).pdf(x)
y6=stats.beta(alpha[4], beta[2]).pdf(x)
y6=stats.beta(alpha[5], beta[2]).pdf(x)

plt.plot(x, y1,'r',label=r'$\alpha=0.7$,$\beta =0.7$')#画图
plt.plot(x, y2,'g',label=r'$\alpha=1$,$\beta =1$')#画图
plt.plot(x, y3,'b',label=r'$ \alpha=1, \beta=2 $')#画图
plt.plot(x, y4,'y',label=r'$ \alpha=1, \beta=3 $')#画图
plt.plot(x, y5,'k',label=r'$ \alpha=3, \beta=4 $')#画图
plt.plot(x, y6,'m',label=r'$ \alpha=4, \beta=2 $')#画图
plt.plot(x, y6,'c',label=r'$ \alpha=5, \beta=2 $')#画图

plt.legend() #显示图例
plt.title('贝塔分布概率密度函数',fontproperties=my_font) #图名
plt.grid(True) #显示网格线
plt.axes=[0,1,0,4]#设置y轴的显示范围
plt.show()

$\beta$ 分布概率密度函数的图像如下：
在这里插入图片描述

4.5 $\Gamma$ 分布（Gamma Distribution,伽马分布）

        回顾我们讲泊松过程时，证明了第 $n$ 个事件到来时，总的等待时间是服从 $\Gamma$ 分布。当时举的例子是包子店早上6点开始开门营业，第一个顾客达到时间为6:05，第二个顾客到达时间为6:12，所以店铺老板等待第一个顾客到来总共等了5分钟，等待第二个顾客到来总共等了12分钟，那么等待第 $n$ 个顾客到来总共需要等多久呢?我们说这个等待时间是一个随机变量，且该变量服从 $\Gamma$ 分布，因此我们很自然的猜测出 $n$ 应该是 $\Gamma$ 分布的一个参数。另外，我们注意到顾客的到达过程是一个泊松过程，泊松过程的参数是 $\lambda$ ，即到达率，因此我们有理由猜测 $\lambda$ 应该也和 $\Gamma$ 分布有关，事实上， $n$ 和 $\lambda$ 就是 $\Gamma$ 分布的两个参数。通过上面的叙述，我们可以很直观的看出 $\Gamma$ 分布就是等待第 $n$ 个事件发生需要的时间。
        除了在泊松过程中见到 $\Gamma$ 分布，它通常还作为其他分布的先验分布，如指数分布（exponential distribution）、埃尔朗分布（Erlang distribution）以及 $\chi^2$ 分布（chi-square distribution）都是 $\Gamma$ 分布的特例。
        在正式介绍 $\Gamma$ 分布之前，我们先介绍一下 $\Gamma$ 函数。从名字我们可以看出这两者肯定有联系，我们先看 $\Gamma$ 函数长成什么样子。
$\Gamma (\alpha ) = \int_0^\infty {{t^{\alpha - 1}}{e^{ - t}}dt} ,{\kern 4pt} \alpha > 0$
在这里插入图片描述
        我们将上面的 $\Gamma$ 函数做一个变形可得：
$\int_0^\infty \frac{{{t^{\alpha - 1}}{e^{ - t}}dt}}{\Gamma (\alpha )} =1$
我们从概率角度来看上述等式：我们知道对一个随机变量的概率密度函数求积分（在该随机变量的整个定义域内），其结果为1。因此，上式中的被积函数可以看做一个概率密度函数，而事实上它也正是 $\Gamma$ 分布的概率密度函数。但它看起来好像和我们常见的形式有点不一样，因此我们再做一点点的变形：
        令 $t=\beta x$ ，代入到上述被积函数中有：
$\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}$
这样是不是就和我们常见的 $\Gamma$ 分布的概率密度函数一样了？
        下面我们正式写出 $\Gamma$ 分布的概率密度函数：
$f(x;\alpha,\beta)=\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}$
        在求解 $\Gamma$ 分布的期望和方差之前，我们先证明 $\Gamma$ 函数的一个性质：
$\int_0^\infty {{x^{p - 1}}{e^{ - ax}}dx} = {a^{ - p}}\Gamma (p)$
证明：令 $a x = t$ ，则有 $dx=\frac{1}{a}dt$ ，故
$\begin{aligned}\int_0^\infty {{x^{p - 1}}{e^{ - ax}}dx} =\int_0^\infty {{\frac{1}{a}(\frac{t}{a})^{p - 1}}{e^{ - t}}dt}=\int_0^\infty {{(a)^{-p}(t)^{p - 1}}{e^{ - t}}dt}=(a)^{-p}\Gamma (p)\end{aligned}$
$\Gamma$ 分布的期望为：
$\begin{aligned} E[X] &= \int_0^\infty {x\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}dx} = \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {{\beta ^\alpha }{x^\alpha }{e^{ - \beta x}}dx} \\ &= \frac{1}{{\Gamma (\alpha )}}\int_0^\infty { - {\beta ^{\alpha - 1}}{x^\alpha }d{e^{ - \beta x}}} \\ & = \frac{1}{{\Gamma (\alpha )}}( - {\beta ^{\alpha - 1}}{x^\alpha }{e^{ - \beta x}})\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {\alpha {\beta ^{\alpha - 1}}{x^{\alpha - 1}}{e^{ - \beta x}}dx} \\ &= \frac{{\alpha {\beta ^{\alpha - 1}}}}{{\Gamma (\alpha )}}\int_0^\infty {{x^{\alpha - 1}}{e^{ - \beta x}}dx} = \frac{{\alpha {\beta ^{\alpha - 1}}}}{{\Gamma (\alpha )}}{\beta ^{ - \alpha }}\Gamma (\alpha ) = \frac{\alpha }{\beta } \end{aligned}$
方差为：
$\begin{aligned} E[{X^2}] &= \int_0^\infty {{x^2}\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}]dx} = \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {{\beta ^\alpha }{x^{\alpha + 1}}{e^{ - \beta x}}dx} \\ &= \frac{1}{{\Gamma (\alpha )}}\int_0^\infty { - {\beta ^{\alpha - 1}}{x^{\alpha + 1}}d{e^{ - \beta x}}} \\ & = \frac{1}{{\Gamma (\alpha )}}( - {\beta ^{\alpha - 1}}{x^{\alpha + 1}}{e^{ - \beta x}})\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {(\alpha + 1){\beta ^{\alpha - 1}}{x^\alpha }{e^{ - \beta x}}dx} \\ & = \frac{{\alpha + 1}}{{\Gamma (\alpha )}}\int_0^\infty { - {\beta ^{\alpha - 2}}{x^\alpha }d{e^{ - \beta x}}} \\ & = \frac{{\alpha + 1}}{{\Gamma (\alpha )}}({\beta ^{\alpha - 2}}{x^\alpha }{e^{ - \beta x}})\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \frac{{\alpha + 1}}{{\Gamma (\alpha )}}\int_0^\infty {\alpha {\beta ^{\alpha - 2}}{x^{\alpha - 1}}{e^{ - \beta x}}dx} \\ & = \frac{{\alpha (\alpha + 1){\beta ^{\alpha - 2}}}}{{\Gamma (\alpha )}}{\beta ^{ - \alpha }}\Gamma (\alpha ) = \frac{{\alpha (\alpha + 1)}}{{{\beta ^2}}} \end{aligned}$
$D[X]=E[X^2]-(E[X])^2=\frac{\alpha (\alpha+1)}{\beta^2}-\frac{\alpha^2}{\beta^2}=\frac{\alpha}{\beta^2}$
        下面同样用Python对 $\Gamma$ 分布进行可视化，代码如下：

#加载相关库
import numpy as np
from scipy.stats import gamma
import matplotlib.pyplot as plt
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname=

    "C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
alpha_value=[0.5,1,1,2,3,3,3] #参数α的取值
beta_value=[2,1,0.5,0.5,0.5,1,2] #参数β的取值
color=['b','r','y','m','g','k'] #绘图颜色的选取
x=np.linspace(1e-6,10,1000)
fig,ax=plt.subplots()
for k,t,c in zip(alpha_value,beta_value,color): #zip(a,b)表示将a和b中的元素按顺序一一对应形成一个可迭代的对象
    y=gamma(k, 0, t) #建立gamma的随机变量
    plt.plot(x,y.pdf(x),c=c,label=r'$\alpha=%.1f,\ \beta=%.1f$' %(k,t)) #绘图
plt.xlim(0,10) #x轴的显示范围
plt.ylim(0,2) #y轴的显示范围
plt.xlabel('$x$')
plt.ylabel(r'$p(x|\alpha,\beta)$')
plt.title('Gamma分布',fontproperties=my_font)
plt.legend(loc=0)
plt.show()

结果如下：
在这里插入图片描述
从上图可以看出：
（1）当 $\alpha \le1$ 时，概率密度函数是单调递减的，而 $\alpha >1$ 时，概率密度函数是一个单峰函数，因此参数 $\alpha$ 决定了 $\Gamma$ 分布函数的形状，故叫 $\alpha$ 为形状（shape）参数；
（2）对于 $\beta$ ，发现无论 $\alpha$ 如何取值，都存在 $\beta$ 越大，密度函数图像就越平坦一些，反之则越陡，因此称 $\beta$ 为逆尺度参数（inverse scale parameter），而一般称 $\theta=\frac{1}{\beta}$ 是尺度参数（scale parameter）；
（3）当 $\alpha=1$ 时， $\begin{aligned}f(x;1,\beta)=\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}=\beta e^{-\beta x}\end{aligned}$ ，这是一个参数为 $\beta$ 的指数分布；
（4）当 $\begin{aligned}\alpha=\frac{n}{2}且\beta=\frac{1}{2}\end{aligned}$ 时， $\Gamma$ 分布则变成一个自由度为 $n$ 的卡方分布： $\chi^2(n)$ 。
———————————————————————————————————————
注：本文选取这些分布进行介绍是因为这些分布是非常常见的，实际上随机变量的分布还有很多很多。本文主要介绍分布的分布函数、期望以及方差，目的是期望能帮大家对常见的分布有个比较明晰的认知，至于分布背后还有很多其他的知识点，读者如有需要可以查阅相关资料，或者是给我留言，我再补充一下。最后，由于本人的知识水平有限以及个人能力的不足，文中可能存在错误，恳请大家批评指正，谢谢！