生成模型必备数学基础——概率论基础复习

1、前言

本篇复习一些机器学习和深度学习常用的概率论的基础知识,因为我发现有挺多人对这些东西都不了解,或者说忘了,所以,本篇文章,意在唤醒你那已经交还给老师的概率论基础记忆,以为下一篇文章做基础

视频:[数学基础——生成模型必备知识-哔哩哔哩]

2、基础

2.1、随机事件

概念:在试验中可能发生也可能不发生的事件,随机事件通常用字母A,B,C等表示

例如,在抛掷一颗骰子的试验中,用A表示“点数为奇数”这一事件,则A就是一个随机事件。

P(A)表示事件A发生的概率

事件独立:若事件A的发生与事件B的发生与否无关(反过来也是一样)则A,B相互独立

有公式
P ( A , B ) = P ( A ) P ( B ) P(A,B)=P(A)P(B) P(A,B)=P(A)P(B)
其中 P ( A , B ) P(A,B) P(A,B)表示事件A,B同时发生的概率

条件概率: P ( B ∣ A ) P(B|A) P(BA):表示事件A发生的情况下,B发生的概率

有公式
P ( B ∣ A ) = P ( A , B ) P ( A ) P(B|A)=\frac{P(A,B)}{P(A)} P(BA)=P(A)P(A,B)

乘法公式:
P ( A , B ) = P ( B ∣ A ) P ( A ) = P ( A ∣ B ) P ( B ) P(A,B)=P(B|A)P(A)=P(A|B)P(B) P(A,B)=P(BA)P(A)=P(AB)P(B)

全概率公式:将一个复杂的概率事件问题,转化为在不同原因下发生的简单事件概率的求和

设一个完备事件组 A 1 , A 2 . ⋯   , A n , ⋯ A_1,A_2.\cdots,A_n,\cdots A1,A2.,An,
P ( B ) = ∑ i P ( A i , B ) = ∑ i P ( A i ) P ( B ∣ A i ) = P ( A 1 ) P ( B ∣ A 1 ) + ⋯ + P ( A n ) P ( B ∣ A n ) + ⋯ P(B)=\sum\limits_{i}P(A_i,B)=\sum\limits_{i}P(A_i)P(B|A_i)=P(A_1)P(B|A_1)+\cdots+P(A_n)P(B|A_n)+\cdots P(B)=iP(Ai,B)=iP(Ai)P(BAi)=P(A1)P(BA1)++P(An)P(BAn)+
也就是说,事件B的发生,是由事件A引起的,所以,我们穷举所有能够影响B事件的A,一件件列举出来,计算概率,然后求和。

举个例子

比如,对于事件B——股票价格上涨,引起的原因利率。则记 A 1 , A 2 A_1,A_2 A1,A2分别为利率下降和利率不变。

人们根据经验估计,利率下降的可能性为0.6,利率不变的可能性为0.4。在利率下降的情况下,股票上涨概率为0.8;在利率不变的情况下,股票上涨的概率为0.4。

总结题目给出的概率
P ( A 1 ) = 0.6 ; P ( A 2 ) = 0.4 ; P ( B ∣ A 1 ) = 0.8 ; P ( B ∣ A 2 ) = 0.4 P(A_1)=0.6;P(A_2)=0.4;P(B|A_1)=0.8;P(B|A_2)=0.4 P(A1)=0.6P(A2)=0.4P(BA1)=0.8P(BA2)=0.4
那么股票上涨的概率就可以表示为
P ( B ) = P ( B ∣ A 1 ) P ( A 1 ) + P ( B ∣ A 2 ) P ( A 2 ) = 0.64 P(B)=P(B|A_1)P(A_1)+P(B|A_2)P(A_2)=0.64 P(B)=P(BA1)P(A1)+P(BA2)P(A2)=0.64
贝叶斯公式:

设一个完备事件组 A 1 , A 2 . ⋯   , A n , ⋯ A_1,A_2.\cdots,A_n,\cdots A1,A2.,An,
P ( A i ∣ B ) = P ( A i , B ) P ( B ) = P ( A i ) P ( B ∣ A i ) ∑ j P ( A j ) P ( B ∣ A j ) P(A_i|B)=\frac{P(A_i,B)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum\limits_{j}P(A_j)P(B|A_j)} P(AiB)=P(B)P(Ai,B)=jP(Aj)P(BAj)P(Ai)P(BAi)

也就是当事件B发生,那么这件事是由 A i A_i Ai引起的可能性有多大

2.2、随机变量

随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。

简单来说,随机变量,其实不是变量,而是一个函数。其能够把随机事件量化。

以抛硬币为例,硬币正反面的概率为 1 2 \frac{1}{2} 21,应用到随机变量的话,就会把正反面这种概念给量化,比如正面为1,反面为0。

现在,设我们的随机变量为 X X X

那么就有 X ( 正 ) = 1 X(正)=1 X()=1 X ( 反 ) = 0 X(反)=0 X()=0

试验结果的的正、反,我们称为样本点,暂时用 ω \omega ω表示;其所在空间称为样本空间,记为S。于是,我们就可以有这张图

在这里插入图片描述

可以看到,随机变量X,其实就是将样本点 ω \omega ω映射到具体的值,如 X ( ω 1 ) = 0 X(\omega_1)=0 X(ω1)=0

设定一个集合
A = { ω ∣ X ( w ) = 0 } A=\left\{\omega|X(w)=0\right\} A={ωX(w)=0}
即找到所有满足 ω ∣ X ( w ) = 0 \omega|X(w)=0 ωX(w)=0 ω \omega ω,这些 ω \omega ω的集合记为A,该A是样本空间S的子集。

为了简单起见,我们设定
A = { ω ∣ X ( w ) = 0 } 记为 { X = 0 } A=\left\{\omega|X(w)=0\right\}记为\{X=0\} A={ωX(w)=0}记为{X=0}

2.3、离散随机变量和连续随机变量

离散随机变量:即随机变量的取值只有有限个或可数无穷个

比如上面提到的硬币,随机变量X的取值只有0跟1。

离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。

连续随机变量:连续型随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来

比如某地区男性健康成人的身高、体重值,一批传染性肝炎患者的血清转氨酶测定值等

有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。

对随机变量X=a的概率,表示为 P ( X = a ) P(X=a) P(X=a)

后续如果我写成了 P ( a ) P(a) P(a),请不要奇怪,这代表里面的X取了某个值,比如上面的a,我只是懒得写出来

2.4、多维随机变量

设随机变量X,Y

离散时:
P ( Y = y ) = ∑ i = 1 n P ( X = x i , Y = y ) = ∑ X P ( X , Y = y ) = ∑ X P ( X , y ) (1) P(Y=y)=\tag{1}\sum\limits_{i=1}^nP(X=x_i,Y=y)=\sum\limits_{X}P(X,Y=y)=\sum\limits_{X}P(X,y) P(Y=y)=i=1nP(X=xi,Y=y)=XP(X,Y=y)=XP(X,y)(1)

连续时:
P ( Y = y ) = ∫ X P ( X , y ) d X (2) P(Y=y)=\int_X P(X,y)dX\tag{2} P(Y=y)=XP(X,y)dX(2)

2.5、概率分布

概率分布:指用于表述随机变量取值的概率规律

离散随机变量常用分布:伯努利分布

即随机变量X只有两种可能的取值

X01
P k P_k Pk 1 − p 1-p 1p p p p

P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},k=0,1 P(X=k)=pk(1p)1k,k=0,1

该式子表示,在实验中,随机变量取到k的可能性是多少。比如抛硬币,1为正面,那k=1,就表示硬币为正的概率是多少

连续性随机变量常用分布:正态分布(高斯分布)

一维:

概率密度函数:
f ( x ) = 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x)=2π σ1exp{2σ2(xμ)2}
其中 μ , σ 2 \mu,\sigma^2 μ,σ2分别代表期望跟方差。

图像

在这里插入图片描述

Ps:图像来自百度百科

y轴最高点对应的横坐标时均值点。

当随机变量X服从标准正态分布时,我们写作 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1),也就是均值为0,方差为1。

多维:

概率密度函数
f ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } f(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right\} f(x)=(2π)2n∣Σ211exp{21(xμ)TΣ1(xμ)}
其中, Σ \Sigma Σ表示协方差矩阵

图像

在这里插入图片描述

Ps:图像来自百度图像

2.6、随机变量的数字特征

数学期望(均值):用于衡量随机变量取值水平

设随机变量X的概率分布为
P ( X = x i ) = p i P(X=x_i)=p_i P(X=xi)=pi
则数学期望为
E ( X ) = ∑ i x i p i = ∫ x f ( x ) d x \mathbb{E}\left(X\right)=\sum\limits_{i}x_ip_i=\int xf(x)dx E(X)=ixipi=xf(x)dx
在一些情况下,会直接写成这样
E ( X ) = ∫ X f ( X ) d X \mathbb{E}(X)=\int Xf(X)dX E(X)=Xf(X)dX
因为在实际的运算中,推导的时候就很麻烦了,又何必去区分随机变量跟具体的取值呢?

而随机变量函数的数学期望公式如下
E [ g ( X ) ] = ∑ i = 1 n g ( x i ) p i = ∫ g ( x ) f ( x ) d x \mathbb{E}\left[g(X)\right]=\sum\limits_{i=1}^ng(x_i)p_i=\int g(x)f(x)dx E[g(X)]=i=1ng(xi)pi=g(x)f(x)dx
其中, g ( X ) g(X) g(X)是关于随机变量X的函数,比如$g(X)=\log X $

性质1:常数的期望是其本身

性质2:若C是常数,则 E ( C ∗ X ) = C ∗ E ( X ) \mathbb{E}(C*X)=C*\mathbb{E}(X) E(CX)=CE(X)

性质3: E ( X 1 + X 2 ) = E ( X 1 ) + E ( X 2 ) \mathbb{E}(X_1+X_2)=E(X_1)+E(X_2) E(X1+X2)=E(X1)+E(X2)

性质4:如果X,Y相互独立,则 E ( X , Y ) = E ( X ) E ( Y ) \mathbb{E}(X,Y)=E(X)E(Y) E(X,Y)=E(X)E(Y)

这些性质很重要,请务必记住

一般地,人们可能会把期望写成这样
E X ∼ P d a t a [ X ] \mathbb{E}_{X\sim P_{data}}\left[X\right] EXPdata[X]
意思是,我们所求数学期望的随机变量X,服从的概率分布为 P d a t a P_{data} Pdata

有一些会写成这样
E ( X , Y ) [ X ] \mathbb{E}_{(X,Y)}\left[X\right] E(X,Y)[X]
表示对中括号里面,求随机变量X,Y的期望。由于中括号里面只有随机变量X,所以关于Y求期望,就相当于对常数求期望。我们来看
E ( X , Y ) [ X ] = ∫ X , Y X ∗ P ( X , Y ) d ( X , Y ) = ∫ X ∫ Y X ∗ P ( X , Y ) d X d Y = ∫ X X ∫ Y P ( X , Y ) d Y ⏟ d X = ∫ X X ∗ P ( X ) d X = E X [ X ] \begin{aligned}\mathbb{E}_{(X,Y)}\left[X\right]=&\int_{X,Y} X*P(X,Y)d(X,Y)\\=&\int_X\int_YX*P(X,Y)dXdY\\=&\int_X X\underbrace{\int_YP(X,Y)dY}dX\\=&\int_XX*P(X)dX\\=&\mathbb{E}_X\left[X\right]\end{aligned} E(X,Y)[X]=====X,YXP(X,Y)d(X,Y)XYXP(X,Y)dXdYXX YP(X,Y)dYdXXXP(X)dXEX[X]

所以得出结论,如果期望空号里面没有Y这个随机变量,对Y求期望就相当于对常数求期望

方差:用于衡量随机变量的取值稳定性
D ( X ) = E [ X − E ( X ) ] 2 = E ( X 2 ) − [ E ( X ) ] 2 D(X)=\mathbb{E}\left[X-E(X)\right]^2=\mathbb{E}(X^2)-[\mathbb{E}(X)]^2 D(X)=E[XE(X)]2=E(X2)[E(X)]2
性质1:常数的方差为0

性质2:设C为常数,X为随机变量,则 D ( C ∗ X ) = C 2 D ( X ) D(C*X)=C^2D(X) D(CX)=C2D(X)

性质3:设X,Y是两个随机变量,则
D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } D(X\pm Y)=D(X)+D(Y)\pm 2\mathbb{E}\{[X-\mathbb{E}(X)][Y-\mathbb{E}(Y)]\} D(X±Y)=D(X)+D(Y)±2E{[XE(X)][YE(Y)]}
当X,Y独立,有
D ( X ± Y ) = D ( X ) + D ( Y ) D(X\pm Y)=D(X) + D(Y) D(X±Y)=D(X)+D(Y)
重点记住性质1和性质2

协方差:反应随机变量之间的依赖关系

假设有随机变量,X,Y,其协方差表示为
c o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } cov(X,Y)=\mathbb{E}\left\{[X-E(X)][Y-E(Y)]\right\} cov(X,Y)=E{[XE(X)][YE(Y)]}

2.7、极大似然估计

简单来说,就是根据样本数据,来估计出分布中可能性最大的参数。

做法就是,求出能够让似然函数最大化的参数

具体步骤如下:

(1) 写出似然函数

(2) 对似然函数取对数,并整理;

(3) 关于参数求导数

(4) 解似然方程得到参数的值 。

似然函数:离散的时候,就等于 P ( x ∣ θ ) P(x|\theta) P(xθ),而连续的时候,则是其密度函数 f ( x ∣ θ ) f(x|\theta) f(xθ)

其中,里面的 θ \theta θ表示所要求的概率分布的参数(为了表达的简便,后续我会直接省略掉 θ \theta θ

极大似然估计有一个假设:样本之间独立同分布。

举个例子

现在,我们作一个抛硬币的实验

X01
p p p 1 − p 1-p 1p p p p

正面记作1,反面记作0。假设我们并不知道正反面的概率,分别记为 p p p 1 − p 1-p 1p

我们通过做了十次实验,得到实验数据【0,1,1,1,0,0,1,1,0,1】,我记这十次实验分别是 x 1 , ⋯   , x 10 x_1,\cdots,x_{10} x1,,x10,整体用 x x x表示,也就是说
x = ( x 1 , x 2 , ⋯   , x 10 ) x=\begin{pmatrix}x_1,x_2,\cdots,x_{10}\end{pmatrix} x=(x1,x2,,x10)
对这种随机变量取二值的问题,很显然就是伯努利分布。

①写出似然函数,并由于样本之间独立同分布,故而根据前面提到的运算法则,有
max ⁡ p P ( x ) = ∏ i = 1 10 P ( x i ) \max\limits_{p} P(x)=\prod\limits_{i=1}^{10}P(x_i) pmaxP(x)=i=110P(xi)
②取对数,并整理( log ⁡ a ∗ b = log ⁡ a + log ⁡ b \log a*b=\log a+\log b logab=loga+logb
max ⁡ p log ⁡ P ( x ) = log ⁡ ∏ i = 1 10 P ( x i ) = ∑ i = 1 10 log ⁡ P ( x i ) (3) \max\limits_{p}\log P(x)=\log\prod\limits_{i=1}^{10}P(x_i)=\sum\limits_{i=1}^{10}\log P(x_i)\tag{3} pmaxlogP(x)=logi=110P(xi)=i=110logP(xi)(3)
由伯努利分布可知,其概率为
P ( x i ) = p x i ( 1 − p ) 1 − x i P(x_i)=p^{x_i}(1-p)^{1-x_i} P(xi)=pxi(1p)1xi
所以,式(3)得
max ⁡ p log ⁡ P ( x ) = ∑ i = 1 10 log ⁡ P ( x i ) = ∑ i = 1 10 log ⁡ ( p x i ( 1 − p ) 1 − x i ) = ∑ i = 1 10 [ log ⁡ p x i + log ⁡ ( 1 − p ) 1 − x i ] = ∑ i = 1 10 [ x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ] \begin{aligned}\max\limits_{p}\log P(x)=&\sum\limits_{i=1}^{10}\log P(x_i)\\=&\sum\limits_{i=1}^{10}\log \left(p^{x_i}(1-p)^{1-x_i}\right)\\=&\sum\limits_{i=1}^{10}\left[\log p^{x_i}+\log (1-p)^{1-x_i}\right]\\=&\sum\limits_{i=1}^{10}\left[x_i\log p+{(1-x_i)}\log (1-p)\right]\end{aligned} pmaxlogP(x)====i=110logP(xi)i=110log(pxi(1p)1xi)i=110[logpxi+log(1p)1xi]i=110[xilogp+(1xi)log(1p)]
③要求对数似然最大,就对 p p p求导
∂ log ⁡ P ( x ) ∂ p = ∑ i = 1 10 [ x i 1 p − ( 1 − x i ) 1 1 − p ] \frac{\partial{\log P(x)}}{\partial{p}}=\sum\limits_{i=1}^{10}\left[x_i\frac{1}{p}-(1-x_i)\frac{1}{1-p}\right] plogP(x)=i=110[xip1(1xi)1p1]
④令导数得0,并求解方程组
∑ i = 1 10 [ x i 1 p − ( 1 − x i ) 1 1 − p ] = 0 \sum\limits_{i=1}^{10}\left[x_i\frac{1}{p}-(1-x_i)\frac{1}{1-p}\right]=0 i=110[xip1(1xi)1p1]=0
将其整理,得
p = ∑ i = 1 10 x i 10 = 0.6 p=\frac{\sum\limits_{i=1}^{10}x_i}{10}=0.6 p=10i=110xi=0.6
所以,我们求出了正面的概率为0.6,反面概率为0.4。我们知道,一般硬币正反的概率五五开,我们之所以求出这样的概率,是因为我们的实验样本少,当我们使用的样本足够多的时候,估计出来的参数就越准确。

2.8、信息熵

概念:描述信息源各可能事件发生的不确定性

公式如下
H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ 2 P ( x i ) H(X)=-\sum\limits_{i=1}^nP(x_i)\log_2 P(x_i) H(X)=i=1nP(xi)log2P(xi)
信息熵引进案例

信息量:

当一件概率很小的事情发生了,我们往往会认为此事的信息量巨大。比如,你听说你那单身了20年的宅男舍友,竟然脱单了!其中猫腻,令人遐想。

而当一件概率很大的事情发生了,我们认为信息量比较少。比如你那当了20年的渣男舍友,突然换了一个女朋友。我们不会震惊,毕竟它是渣男。

所以,信息量的大小,与概率成反比。所以我们可以表达成这样(h(x)表示信息量)
h ( x ) = 1 p ( x ) h(x)=\frac{1}{p(x)} h(x)=p(x)1
可是单单这样表达还不行,假如我们有两份不相关的事件(x,y)的时候
h ( x , y ) = h ( x ) + h ( y ) (4) h(x,y)=h(x)+h(y)\tag{4} h(x,y)=h(x)+h(y)(4)
对于事件相互独立,在概率上,我们有: P ( x , y ) = P ( x ) P ( y ) P(x,y)=P(x)P(y) P(x,y)=P(x)P(y)。那么同理可得:
①: h ( x , y ) = 1 P ( x , y ) = 1 P ( x ) + P ( y ) ②: h ( x ) + h ( y ) = 1 P ( x ) + 1 P ( x ) ①:h(x,y)=\frac{1}{P(x,y)}=\frac{1}{P(x)+P(y)}\\②:h(x)+h(y)=\frac{1}{P(x)}+\frac{1}{P(x)} h(x,y)=P(x,y)1=P(x)+P(y)1h(x)+h(y)=P(x)1+P(x)1
很显然,根据式(4),①和②应该相等才对,但是此时却不相等。所以,为了保证一致性,我们把信息量表示成这样
h ( x ) = log ⁡ 2 1 P ( x ) = − log ⁡ 2 P ( x ) h(x)=\log_2\frac{1}{P(x)}=-\log_2P(x) h(x)=log2P(x)1=log2P(x)
表达成这样后,我们再来算一次
h ( x , y ) = − log ⁡ 2 P ( x , y ) = − log ⁡ 2 P ( x ) P ( y ) = − log ⁡ 2 P ( x ) − log ⁡ 2 P ( y ) = h ( x ) + h ( y ) h(x,y)=-\log_2P(x,y)=-\log_2 P(x)P(y)=-\log_2 P(x)-\log_2 P(y)=h(x)+h(y) h(x,y)=log2P(x,y)=log2P(x)P(y)=log2P(x)log2P(y)=h(x)+h(y)
这样,就保证了恒等了。

那为什么对数的底数为什么要取2呢?这是因为 1 P ( x ) \frac{1}{P(x)} P(x)1是一个恒大于0的数,如果对数的底数小于0,就变成了单调递减函数,那么 log ⁡ h ( x ) = log ⁡ 1 P ( x ) ≤ 0 \log h(x)=\log \frac{1}{P(x)}\le0 logh(x)=logP(x)10;信息量显然不能是负数,所以,底数必须要取一个大于1的数。于是根据习惯,就取了2

信息量 —> 信息熵

信息量是对某个已经发生的事件而计算的,当我们设定的是某一个随机变量,其包含所有事件发生的可能,那么信息熵的定义就是,这些事件,在概率发生的情况下,带来的平均信息量

也就是
H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ 2 P ( x i ) = − E [ log ⁡ 2 P ( X ) ] H(X)=-\sum\limits_{i=1}^nP(x_i)\log_2 P(x_i)=-\mathbb{E}\left[\log_2 P(X)\right] H(X)=i=1nP(xi)log2P(xi)=E[log2P(X)]

2.9、KL散度(相对熵)

概念:一种用于衡量两个概率分布之间的差异的指标

公式如下
K L ( q ∣ ∣ p ) = ∑ q ( x ) log ⁡ q ( x ) p ( x ) = ∫ q ( x ) log ⁡ q ( x ) p ( x ) d x KL(q||p)=\sum q(x)\log\frac{q(x)}{p(x)}=\int q(x) \log \frac{q(x)}{p(x)}dx KL(q∣∣p)=q(x)logp(x)q(x)=q(x)logp(x)q(x)dx
其表示的是概率分布q跟概率分布p的相似性

我们把KL散度的公式转化一下
K L ( q ∣ ∣ p ) = ∑ q ( x ) log ⁡ q ( x ) p ( x ) = ∑ q ( x ) [ log ⁡ q ( x ) − log ⁡ p ( x ) ] \begin{aligned}KL(q||p)=&\sum q(x)\log \frac{q(x)}{p(x)}\\=&\sum q(x)\left[\log q(x)-\log p(x)\right]\end{aligned} KL(q∣∣p)==q(x)logp(x)q(x)q(x)[logq(x)logp(x)]
我们可以发现这个公式跟信息熵的公式相当之像,如果从信息熵的角度去看的话( log ⁡ \log log底数取2),其就可以表达成两个概率分布的信息熵的差值

性质:非负性, K L ( q ∣ ∣ p ) ≥ 0 KL(q||p)\ge0 KL(q∣∣p)0。等于0时表示两个概率分布相等

性质:非对称性
K L ( q ∣ ∣ p ) ≠ K L ( p ∣ ∣ q ) KL(q||p)\neq KL(p||q) KL(q∣∣p)=KL(p∣∣q)

3、结束

以上,就是本篇文章的全部内容了,如有问题,还望指出,阿里嘎多!

在这里插入图片描述

4、参考

①概率论与数理统计(吴赣昌主编)

②百度百科_全球领先的中文百科全书 (baidu.com)

③极大似然估计详解 - 知乎 (zhihu.com)

④通俗理解信息熵 - 知乎 (zhihu.com)

⑤Kullback-Leibler(KL)散度介绍 - 知乎 (zhihu.com)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值