生成模型必备数学基础——概率论基础复习

篝火者2312

已于 2024-05-04 09:27:37 修改

阅读量1.3k

点赞数 19

分类专栏：笔记机器学习、人工智能文章标签：深度学习概率论人工智能

于 2024-04-29 18:46:37 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/138322038

版权

机器学习、人工智能同时被 2 个专栏收录

57 篇文章 20 订阅

订阅专栏

笔记

56 篇文章 6 订阅

订阅专栏

1、前言

本篇复习一些机器学习和深度学习常用的概率论的基础知识，因为我发现有挺多人对这些东西都不了解，或者说忘了，所以，本篇文章，意在唤醒你那已经交还给老师的概率论基础记忆，以为下一篇文章做基础

视频：[数学基础——生成模型必备知识-哔哩哔哩]

2、基础

2.1、随机事件

概念：在试验中可能发生也可能不发生的事件，随机事件通常用字母A，B，C等表示

例如，在抛掷一颗骰子的试验中，用A表示“点数为奇数”这一事件，则A就是一个随机事件。

P(A)表示事件A发生的概率

事件独立：若事件A的发生与事件B的发生与否无关（反过来也是一样）则A，B相互独立

有公式
$P (A, B) = P (A) P (B)$
其中 $P (A, B)$ 表示事件A，B同时发生的概率

条件概率： $P (B ∣ A)$ ：表示事件A发生的情况下，B发生的概率

有公式
$P(B|A)=\frac{P(A,B)}{P(A)}$

乘法公式：
$P (A, B) = P (B ∣ A) P (A) = P (A ∣ B) P (B)$

全概率公式：将一个复杂的概率事件问题，转化为在不同原因下发生的简单事件概率的求和

设一个完备事件组 $A_1,A_2.\cdots,A_n,\cdots$
$P(B)=\sum\limits_{i}P(A_i,B)=\sum\limits_{i}P(A_i)P(B|A_i)=P(A_1)P(B|A_1)+\cdots+P(A_n)P(B|A_n)+\cdots$
也就是说，事件B的发生，是由事件A引起的，所以，我们穷举所有能够影响B事件的A，一件件列举出来，计算概率，然后求和。

举个例子

比如，对于事件B——股票价格上涨，引起的原因利率。则记 $A_1,A_2$ 分别为利率下降和利率不变。

人们根据经验估计，利率下降的可能性为0.6，利率不变的可能性为0.4。在利率下降的情况下，股票上涨概率为0.8；在利率不变的情况下，股票上涨的概率为0.4。

总结题目给出的概率
$P(A_1)=0.6；P(A_2)=0.4；P(B|A_1)=0.8；P(B|A_2)=0.4$
那么股票上涨的概率就可以表示为
$P(B)=P(B|A_1)P(A_1)+P(B|A_2)P(A_2)=0.64$
贝叶斯公式：

设一个完备事件组 $A_1,A_2.\cdots,A_n,\cdots$
$P(A_i|B)=\frac{P(A_i,B)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum\limits_{j}P(A_j)P(B|A_j)}$

也就是当事件B发生，那么这件事是由 $A_i$ 引起的可能性有多大

2.2、随机变量

随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。

简单来说，随机变量，其实不是变量，而是一个函数。其能够把随机事件量化。

以抛硬币为例，硬币正反面的概率为 $\frac{1}{2}$ ，应用到随机变量的话，就会把正反面这种概念给量化，比如正面为1，反面为0。

现在，设我们的随机变量为 $X$

那么就有 $X (正) = 1$ ， $X (反) = 0$

试验结果的的正、反，我们称为样本点，暂时用 $\omega$ 表示；其所在空间称为样本空间，记为S。于是，我们就可以有这张图

在这里插入图片描述

可以看到，随机变量X，其实就是将样本点 $\omega$ 映射到具体的值，如 $X(\omega_1)=0$

设定一个集合
$A=\left\{\omega|X(w)=0\right\}$
即找到所有满足 $\omega|X(w)=0$ 的 $\omega$ ，这些 $\omega$ 的集合记为A，该A是样本空间S的子集。

为了简单起见，我们设定
$A=\left\{\omega|X(w)=0\right\}记为\{X=0\}$

2.3、离散随机变量和连续随机变量

离散随机变量：即随机变量的取值只有有限个或可数无穷个

比如上面提到的硬币，随机变量X的取值只有0跟1。

离散型随机变量通常依据概率质量函数分类，主要分为：伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。

连续随机变量：连续型随机变量即在一定区间内变量取值有无限个，或数值无法一一列举出来

比如某地区男性健康成人的身高、体重值，一批传染性肝炎患者的血清转氨酶测定值等

有几个重要的连续随机变量常常出现在概率论中，如：均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。

对随机变量X=a的概率，表示为 $P (X = a)$

后续如果我写成了 $P (a)$ ，请不要奇怪，这代表里面的X取了某个值，比如上面的a，我只是懒得写出来

2.4、多维随机变量

设随机变量X，Y

离散时：
$P(Y=y)=\tag{1}\sum\limits_{i=1}^nP(X=x_i,Y=y)=\sum\limits_{X}P(X,Y=y)=\sum\limits_{X}P(X,y)$

连续时：
$P(Y=y)=\int_X P(X,y)dX\tag{2}$

2.5、概率分布

概率分布：指用于表述随机变量取值的概率规律

离散随机变量常用分布：伯努利分布

即随机变量X只有两种可能的取值

X	0	1
$P_k$	$1 - p$	$p$

$P(X=k)=p^k(1-p)^{1-k},k=0,1$

该式子表示，在实验中，随机变量取到k的可能性是多少。比如抛硬币，1为正面，那k=1，就表示硬币为正的概率是多少

连续性随机变量常用分布：正态分布（高斯分布）

一维：

概率密度函数：
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$
其中 $\mu,\sigma^2$ 分别代表期望跟方差。

图像

在这里插入图片描述

Ps：图像来自百度百科

y轴最高点对应的横坐标时均值点。

当随机变量X服从标准正态分布时，我们写作 $X\sim N(0,1)$ ，也就是均值为0，方差为1。

多维：

概率密度函数
$f(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right\}$
其中， $\Sigma$ 表示协方差矩阵

图像

在这里插入图片描述

Ps：图像来自百度图像

2.6、随机变量的数字特征

数学期望（均值）：用于衡量随机变量取值水平

设随机变量X的概率分布为
$P(X=x_i)=p_i$
则数学期望为
$\mathbb{E}\left(X\right)=\sum\limits_{i}x_ip_i=\int xf(x)dx$
在一些情况下，会直接写成这样
$\mathbb{E}(X)=\int Xf(X)dX$
因为在实际的运算中，推导的时候就很麻烦了，又何必去区分随机变量跟具体的取值呢？

而随机变量函数的数学期望公式如下
$\mathbb{E}\left[g(X)\right]=\sum\limits_{i=1}^ng(x_i)p_i=\int g(x)f(x)dx$
其中， $g (X)$ 是关于随机变量X的函数，比如$g(X)=\log X $

性质1：常数的期望是其本身

性质2：若C是常数，则 $\mathbb{E}(C*X)=C*\mathbb{E}(X)$

性质3： $\mathbb{E}(X_1+X_2)=E(X_1)+E(X_2)$

性质4：如果X，Y相互独立，则 $\mathbb{E}(X,Y)=E(X)E(Y)$

这些性质很重要，请务必记住

一般地，人们可能会把期望写成这样
$\mathbb{E}_{X\sim P_{data}}\left[X\right]$
意思是，我们所求数学期望的随机变量X，服从的概率分布为 $P_{data}$

有一些会写成这样
$\mathbb{E}_{(X,Y)}\left[X\right]$
表示对中括号里面，求随机变量X，Y的期望。由于中括号里面只有随机变量X，所以关于Y求期望，就相当于对常数求期望。我们来看
$\begin{aligned}\mathbb{E}_{(X,Y)}\left[X\right]=&\int_{X,Y} X*P(X,Y)d(X,Y)\\=&\int_X\int_YX*P(X,Y)dXdY\\=&\int_X X\underbrace{\int_YP(X,Y)dY}dX\\=&\int_XX*P(X)dX\\=&\mathbb{E}_X\left[X\right]\end{aligned}$

所以得出结论，如果期望空号里面没有Y这个随机变量，对Y求期望就相当于对常数求期望

方差：用于衡量随机变量的取值稳定性
$D(X)=\mathbb{E}\left[X-E(X)\right]^2=\mathbb{E}(X^2)-[\mathbb{E}(X)]^2$
性质1：常数的方差为0

性质2：设C为常数，X为随机变量，则 $D(C*X)=C^2D(X)$

性质3：设X，Y是两个随机变量，则
$D(X\pm Y)=D(X)+D(Y)\pm 2\mathbb{E}\{[X-\mathbb{E}(X)][Y-\mathbb{E}(Y)]\}$
当X，Y独立，有
$D(X\pm Y)=D(X) + D(Y)$
重点记住性质1和性质2

协方差：反应随机变量之间的依赖关系

假设有随机变量，X，Y，其协方差表示为
$cov(X,Y)=\mathbb{E}\left\{[X-E(X)][Y-E(Y)]\right\}$

2.7、极大似然估计

简单来说，就是根据样本数据，来估计出分布中可能性最大的参数。

做法就是，求出能够让似然函数最大化的参数

具体步骤如下：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）关于参数求导数；

（4）解似然方程得到参数的值。

似然函数：离散的时候，就等于 $P(x|\theta)$ ，而连续的时候，则是其密度函数 $f(x|\theta)$ 。

其中，里面的 $\theta$ 表示所要求的概率分布的参数（为了表达的简便，后续我会直接省略掉 $\theta$ ）

极大似然估计有一个假设：样本之间独立同分布。

举个例子

现在，我们作一个抛硬币的实验

X	0	1
$p$	$1 - p$	$p$

正面记作1，反面记作0。假设我们并不知道正反面的概率，分别记为 $p$ ， $1 - p$

我们通过做了十次实验，得到实验数据【0，1，1，1，0，0，1，1，0，1】，我记这十次实验分别是 $x_1,\cdots,x_{10}$ ，整体用 $x$ 表示，也就是说
$x=\begin{pmatrix}x_1,x_2,\cdots,x_{10}\end{pmatrix}$
对这种随机变量取二值的问题，很显然就是伯努利分布。

①写出似然函数，并由于样本之间独立同分布，故而根据前面提到的运算法则，有
$\max\limits_{p} P(x)=\prod\limits_{i=1}^{10}P(x_i)$
②取对数，并整理（ $\log a*b=\log a+\log b$ ）
$\max\limits_{p}\log P(x)=\log\prod\limits_{i=1}^{10}P(x_i)=\sum\limits_{i=1}^{10}\log P(x_i)\tag{3}$
由伯努利分布可知，其概率为
$P(x_i)=p^{x_i}(1-p)^{1-x_i}$
所以，式（3）得
$\begin{aligned}\max\limits_{p}\log P(x)=&\sum\limits_{i=1}^{10}\log P(x_i)\\=&\sum\limits_{i=1}^{10}\log \left(p^{x_i}(1-p)^{1-x_i}\right)\\=&\sum\limits_{i=1}^{10}\left[\log p^{x_i}+\log (1-p)^{1-x_i}\right]\\=&\sum\limits_{i=1}^{10}\left[x_i\log p+{(1-x_i)}\log (1-p)\right]\end{aligned}$
③要求对数似然最大，就对 $p$ 求导
$\frac{\partial{\log P(x)}}{\partial{p}}=\sum\limits_{i=1}^{10}\left[x_i\frac{1}{p}-(1-x_i)\frac{1}{1-p}\right]$
④令导数得0，并求解方程组
$\sum\limits_{i=1}^{10}\left[x_i\frac{1}{p}-(1-x_i)\frac{1}{1-p}\right]=0$
将其整理，得
$p=\frac{\sum\limits_{i=1}^{10}x_i}{10}=0.6$
所以，我们求出了正面的概率为0.6，反面概率为0.4。我们知道，一般硬币正反的概率五五开，我们之所以求出这样的概率，是因为我们的实验样本少，当我们使用的样本足够多的时候，估计出来的参数就越准确。

2.8、信息熵

概念：描述信息源各可能事件发生的不确定性

公式如下
$H(X)=-\sum\limits_{i=1}^nP(x_i)\log_2 P(x_i)$
信息熵引进案例

信息量：

当一件概率很小的事情发生了，我们往往会认为此事的信息量巨大。比如，你听说你那单身了20年的宅男舍友，竟然脱单了！其中猫腻，令人遐想。

而当一件概率很大的事情发生了，我们认为信息量比较少。比如你那当了20年的渣男舍友，突然换了一个女朋友。我们不会震惊，毕竟它是渣男。

所以，信息量的大小，与概率成反比。所以我们可以表达成这样（h(x)表示信息量）
$h(x)=\frac{1}{p(x)}$
可是单单这样表达还不行，假如我们有两份不相关的事件（x，y）的时候
$h(x,y)=h(x)+h(y)\tag{4}$
对于事件相互独立，在概率上，我们有： $P (x, y) = P (x) P (y)$ 。那么同理可得：
$①：h(x,y)=\frac{1}{P(x,y)}=\frac{1}{P(x)+P(y)}\\②：h(x)+h(y)=\frac{1}{P(x)}+\frac{1}{P(x)}$
很显然，根据式（4），①和②应该相等才对，但是此时却不相等。所以，为了保证一致性，我们把信息量表示成这样
$h(x)=\log_2\frac{1}{P(x)}=-\log_2P(x)$
表达成这样后，我们再来算一次
$h(x,y)=-\log_2P(x,y)=-\log_2 P(x)P(y)=-\log_2 P(x)-\log_2 P(y)=h(x)+h(y)$
这样，就保证了恒等了。

那为什么对数的底数为什么要取2呢？这是因为 $\frac{1}{P(x)}$ 是一个恒大于0的数，如果对数的底数小于0，就变成了单调递减函数，那么 $\log h(x)=\log \frac{1}{P(x)}\le0$ ；信息量显然不能是负数，所以，底数必须要取一个大于1的数。于是根据习惯，就取了2

信息量 —> 信息熵

信息量是对某个已经发生的事件而计算的，当我们设定的是某一个随机变量，其包含所有事件发生的可能，那么信息熵的定义就是，这些事件，在概率发生的情况下，带来的平均信息量

也就是
$H(X)=-\sum\limits_{i=1}^nP(x_i)\log_2 P(x_i)=-\mathbb{E}\left[\log_2 P(X)\right]$

2.9、KL散度（相对熵）

概念：一种用于衡量两个概率分布之间的差异的指标

公式如下
$KL(q||p)=\sum q(x)\log\frac{q(x)}{p(x)}=\int q(x) \log \frac{q(x)}{p(x)}dx$
其表示的是概率分布q跟概率分布p的相似性

我们把KL散度的公式转化一下
$\begin{aligned}KL(q||p)=&\sum q(x)\log \frac{q(x)}{p(x)}\\=&\sum q(x)\left[\log q(x)-\log p(x)\right]\end{aligned}$
我们可以发现这个公式跟信息熵的公式相当之像，如果从信息熵的角度去看的话（ $\log$ 底数取2），其就可以表达成两个概率分布的信息熵的差值