1、前言
本篇复习一些机器学习和深度学习常用的概率论的基础知识,因为我发现有挺多人对这些东西都不了解,或者说忘了,所以,本篇文章,意在唤醒你那已经交还给老师的概率论基础记忆,以为下一篇文章做基础
2、基础
2.1、随机事件
概念:在试验中可能发生也可能不发生的事件,随机事件通常用字母A,B,C等表示
例如,在抛掷一颗骰子的试验中,用A表示“点数为奇数”这一事件,则A就是一个随机事件。
P(A)表示事件A发生的概率
事件独立:若事件A的发生与事件B的发生与否无关(反过来也是一样)则A,B相互独立
有公式
P
(
A
,
B
)
=
P
(
A
)
P
(
B
)
P(A,B)=P(A)P(B)
P(A,B)=P(A)P(B)
其中
P
(
A
,
B
)
P(A,B)
P(A,B)表示事件A,B同时发生的概率
条件概率: P ( B ∣ A ) P(B|A) P(B∣A):表示事件A发生的情况下,B发生的概率
有公式
P
(
B
∣
A
)
=
P
(
A
,
B
)
P
(
A
)
P(B|A)=\frac{P(A,B)}{P(A)}
P(B∣A)=P(A)P(A,B)
乘法公式:
P
(
A
,
B
)
=
P
(
B
∣
A
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P(A,B)=P(B|A)P(A)=P(A|B)P(B)
P(A,B)=P(B∣A)P(A)=P(A∣B)P(B)
全概率公式:将一个复杂的概率事件问题,转化为在不同原因下发生的简单事件概率的求和
设一个完备事件组
A
1
,
A
2
.
⋯
,
A
n
,
⋯
A_1,A_2.\cdots,A_n,\cdots
A1,A2.⋯,An,⋯
P
(
B
)
=
∑
i
P
(
A
i
,
B
)
=
∑
i
P
(
A
i
)
P
(
B
∣
A
i
)
=
P
(
A
1
)
P
(
B
∣
A
1
)
+
⋯
+
P
(
A
n
)
P
(
B
∣
A
n
)
+
⋯
P(B)=\sum\limits_{i}P(A_i,B)=\sum\limits_{i}P(A_i)P(B|A_i)=P(A_1)P(B|A_1)+\cdots+P(A_n)P(B|A_n)+\cdots
P(B)=i∑P(Ai,B)=i∑P(Ai)P(B∣Ai)=P(A1)P(B∣A1)+⋯+P(An)P(B∣An)+⋯
也就是说,事件B的发生,是由事件A引起的,所以,我们穷举所有能够影响B事件的A,一件件列举出来,计算概率,然后求和。
举个例子
比如,对于事件B——股票价格上涨,引起的原因利率。则记 A 1 , A 2 A_1,A_2 A1,A2分别为利率下降和利率不变。
人们根据经验估计,利率下降的可能性为0.6,利率不变的可能性为0.4。在利率下降的情况下,股票上涨概率为0.8;在利率不变的情况下,股票上涨的概率为0.4。
总结题目给出的概率
P
(
A
1
)
=
0.6
;
P
(
A
2
)
=
0.4
;
P
(
B
∣
A
1
)
=
0.8
;
P
(
B
∣
A
2
)
=
0.4
P(A_1)=0.6;P(A_2)=0.4;P(B|A_1)=0.8;P(B|A_2)=0.4
P(A1)=0.6;P(A2)=0.4;P(B∣A1)=0.8;P(B∣A2)=0.4
那么股票上涨的概率就可以表示为
P
(
B
)
=
P
(
B
∣
A
1
)
P
(
A
1
)
+
P
(
B
∣
A
2
)
P
(
A
2
)
=
0.64
P(B)=P(B|A_1)P(A_1)+P(B|A_2)P(A_2)=0.64
P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=0.64
贝叶斯公式:
设一个完备事件组
A
1
,
A
2
.
⋯
,
A
n
,
⋯
A_1,A_2.\cdots,A_n,\cdots
A1,A2.⋯,An,⋯
P
(
A
i
∣
B
)
=
P
(
A
i
,
B
)
P
(
B
)
=
P
(
A
i
)
P
(
B
∣
A
i
)
∑
j
P
(
A
j
)
P
(
B
∣
A
j
)
P(A_i|B)=\frac{P(A_i,B)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum\limits_{j}P(A_j)P(B|A_j)}
P(Ai∣B)=P(B)P(Ai,B)=j∑P(Aj)P(B∣Aj)P(Ai)P(B∣Ai)
也就是当事件B发生,那么这件事是由 A i A_i Ai引起的可能性有多大
2.2、随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
简单来说,随机变量,其实不是变量,而是一个函数。其能够把随机事件量化。
以抛硬币为例,硬币正反面的概率为 1 2 \frac{1}{2} 21,应用到随机变量的话,就会把正反面这种概念给量化,比如正面为1,反面为0。
现在,设我们的随机变量为 X X X
那么就有 X ( 正 ) = 1 X(正)=1 X(正)=1, X ( 反 ) = 0 X(反)=0 X(反)=0
试验结果的的正、反,我们称为样本点,暂时用 ω \omega ω表示;其所在空间称为样本空间,记为S。于是,我们就可以有这张图
可以看到,随机变量X,其实就是将样本点 ω \omega ω映射到具体的值,如 X ( ω 1 ) = 0 X(\omega_1)=0 X(ω1)=0
设定一个集合
A
=
{
ω
∣
X
(
w
)
=
0
}
A=\left\{\omega|X(w)=0\right\}
A={ω∣X(w)=0}
即找到所有满足
ω
∣
X
(
w
)
=
0
\omega|X(w)=0
ω∣X(w)=0的
ω
\omega
ω,这些
ω
\omega
ω的集合记为A,该A是样本空间S的子集。
为了简单起见,我们设定
A
=
{
ω
∣
X
(
w
)
=
0
}
记为
{
X
=
0
}
A=\left\{\omega|X(w)=0\right\}记为\{X=0\}
A={ω∣X(w)=0}记为{X=0}
2.3、离散随机变量和连续随机变量
离散随机变量:即随机变量的取值只有有限个或可数无穷个
比如上面提到的硬币,随机变量X的取值只有0跟1。
离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。
连续随机变量:连续型随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来
比如某地区男性健康成人的身高、体重值,一批传染性肝炎患者的血清转氨酶测定值等
有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。
对随机变量X=a的概率,表示为 P ( X = a ) P(X=a) P(X=a)
后续如果我写成了 P ( a ) P(a) P(a),请不要奇怪,这代表里面的X取了某个值,比如上面的a,我只是懒得写出来
2.4、多维随机变量
设随机变量X,Y
离散时:
P
(
Y
=
y
)
=
∑
i
=
1
n
P
(
X
=
x
i
,
Y
=
y
)
=
∑
X
P
(
X
,
Y
=
y
)
=
∑
X
P
(
X
,
y
)
(1)
P(Y=y)=\tag{1}\sum\limits_{i=1}^nP(X=x_i,Y=y)=\sum\limits_{X}P(X,Y=y)=\sum\limits_{X}P(X,y)
P(Y=y)=i=1∑nP(X=xi,Y=y)=X∑P(X,Y=y)=X∑P(X,y)(1)
连续时:
P
(
Y
=
y
)
=
∫
X
P
(
X
,
y
)
d
X
(2)
P(Y=y)=\int_X P(X,y)dX\tag{2}
P(Y=y)=∫XP(X,y)dX(2)
2.5、概率分布
概率分布:指用于表述随机变量取值的概率规律
离散随机变量常用分布:伯努利分布
即随机变量X只有两种可能的取值
X | 0 | 1 |
---|---|---|
P k P_k Pk | 1 − p 1-p 1−p | p p p |
P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},k=0,1 P(X=k)=pk(1−p)1−k,k=0,1
该式子表示,在实验中,随机变量取到k的可能性是多少。比如抛硬币,1为正面,那k=1,就表示硬币为正的概率是多少
连续性随机变量常用分布:正态分布(高斯分布)
一维:
概率密度函数:
f
(
x
)
=
1
2
π
σ
exp
{
−
(
x
−
μ
)
2
2
σ
2
}
f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}
f(x)=2πσ1exp{−2σ2(x−μ)2}
其中
μ
,
σ
2
\mu,\sigma^2
μ,σ2分别代表期望跟方差。
图像
Ps:图像来自百度百科
y轴最高点对应的横坐标时均值点。
当随机变量X服从标准正态分布时,我们写作 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1),也就是均值为0,方差为1。
多维:
概率密度函数
f
(
x
)
=
1
(
2
π
)
n
2
∣
Σ
∣
1
2
exp
{
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
}
f(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right\}
f(x)=(2π)2n∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)}
其中,
Σ
\Sigma
Σ表示协方差矩阵
图像
Ps:图像来自百度图像
2.6、随机变量的数字特征
数学期望(均值):用于衡量随机变量取值水平
设随机变量X的概率分布为
P
(
X
=
x
i
)
=
p
i
P(X=x_i)=p_i
P(X=xi)=pi
则数学期望为
E
(
X
)
=
∑
i
x
i
p
i
=
∫
x
f
(
x
)
d
x
\mathbb{E}\left(X\right)=\sum\limits_{i}x_ip_i=\int xf(x)dx
E(X)=i∑xipi=∫xf(x)dx
在一些情况下,会直接写成这样
E
(
X
)
=
∫
X
f
(
X
)
d
X
\mathbb{E}(X)=\int Xf(X)dX
E(X)=∫Xf(X)dX
因为在实际的运算中,推导的时候就很麻烦了,又何必去区分随机变量跟具体的取值呢?
而随机变量函数的数学期望公式如下
E
[
g
(
X
)
]
=
∑
i
=
1
n
g
(
x
i
)
p
i
=
∫
g
(
x
)
f
(
x
)
d
x
\mathbb{E}\left[g(X)\right]=\sum\limits_{i=1}^ng(x_i)p_i=\int g(x)f(x)dx
E[g(X)]=i=1∑ng(xi)pi=∫g(x)f(x)dx
其中,
g
(
X
)
g(X)
g(X)是关于随机变量X的函数,比如$g(X)=\log X $
性质1:常数的期望是其本身
性质2:若C是常数,则 E ( C ∗ X ) = C ∗ E ( X ) \mathbb{E}(C*X)=C*\mathbb{E}(X) E(C∗X)=C∗E(X)
性质3: E ( X 1 + X 2 ) = E ( X 1 ) + E ( X 2 ) \mathbb{E}(X_1+X_2)=E(X_1)+E(X_2) E(X1+X2)=E(X1)+E(X2)
性质4:如果X,Y相互独立,则 E ( X , Y ) = E ( X ) E ( Y ) \mathbb{E}(X,Y)=E(X)E(Y) E(X,Y)=E(X)E(Y)
这些性质很重要,请务必记住
一般地,人们可能会把期望写成这样
E
X
∼
P
d
a
t
a
[
X
]
\mathbb{E}_{X\sim P_{data}}\left[X\right]
EX∼Pdata[X]
意思是,我们所求数学期望的随机变量X,服从的概率分布为
P
d
a
t
a
P_{data}
Pdata
有一些会写成这样
E
(
X
,
Y
)
[
X
]
\mathbb{E}_{(X,Y)}\left[X\right]
E(X,Y)[X]
表示对中括号里面,求随机变量X,Y的期望。由于中括号里面只有随机变量X,所以关于Y求期望,就相当于对常数求期望。我们来看
E
(
X
,
Y
)
[
X
]
=
∫
X
,
Y
X
∗
P
(
X
,
Y
)
d
(
X
,
Y
)
=
∫
X
∫
Y
X
∗
P
(
X
,
Y
)
d
X
d
Y
=
∫
X
X
∫
Y
P
(
X
,
Y
)
d
Y
⏟
d
X
=
∫
X
X
∗
P
(
X
)
d
X
=
E
X
[
X
]
\begin{aligned}\mathbb{E}_{(X,Y)}\left[X\right]=&\int_{X,Y} X*P(X,Y)d(X,Y)\\=&\int_X\int_YX*P(X,Y)dXdY\\=&\int_X X\underbrace{\int_YP(X,Y)dY}dX\\=&\int_XX*P(X)dX\\=&\mathbb{E}_X\left[X\right]\end{aligned}
E(X,Y)[X]=====∫X,YX∗P(X,Y)d(X,Y)∫X∫YX∗P(X,Y)dXdY∫XX
∫YP(X,Y)dYdX∫XX∗P(X)dXEX[X]
所以得出结论,如果期望空号里面没有Y这个随机变量,对Y求期望就相当于对常数求期望
方差:用于衡量随机变量的取值稳定性
D
(
X
)
=
E
[
X
−
E
(
X
)
]
2
=
E
(
X
2
)
−
[
E
(
X
)
]
2
D(X)=\mathbb{E}\left[X-E(X)\right]^2=\mathbb{E}(X^2)-[\mathbb{E}(X)]^2
D(X)=E[X−E(X)]2=E(X2)−[E(X)]2
性质1:常数的方差为0
性质2:设C为常数,X为随机变量,则 D ( C ∗ X ) = C 2 D ( X ) D(C*X)=C^2D(X) D(C∗X)=C2D(X)
性质3:设X,Y是两个随机变量,则
D
(
X
±
Y
)
=
D
(
X
)
+
D
(
Y
)
±
2
E
{
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
}
D(X\pm Y)=D(X)+D(Y)\pm 2\mathbb{E}\{[X-\mathbb{E}(X)][Y-\mathbb{E}(Y)]\}
D(X±Y)=D(X)+D(Y)±2E{[X−E(X)][Y−E(Y)]}
当X,Y独立,有
D
(
X
±
Y
)
=
D
(
X
)
+
D
(
Y
)
D(X\pm Y)=D(X) + D(Y)
D(X±Y)=D(X)+D(Y)
重点记住性质1和性质2
协方差:反应随机变量之间的依赖关系
假设有随机变量,X,Y,其协方差表示为
c
o
v
(
X
,
Y
)
=
E
{
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
}
cov(X,Y)=\mathbb{E}\left\{[X-E(X)][Y-E(Y)]\right\}
cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
2.7、极大似然估计
简单来说,就是根据样本数据,来估计出分布中可能性最大的参数。
做法就是,求出能够让似然函数最大化的参数
具体步骤如下:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 关于参数求导数 ;
(4) 解似然方程得到参数的值 。
似然函数:离散的时候,就等于 P ( x ∣ θ ) P(x|\theta) P(x∣θ),而连续的时候,则是其密度函数 f ( x ∣ θ ) f(x|\theta) f(x∣θ)。
其中,里面的 θ \theta θ表示所要求的概率分布的参数(为了表达的简便,后续我会直接省略掉 θ \theta θ)
极大似然估计有一个假设:样本之间独立同分布。
举个例子
现在,我们作一个抛硬币的实验
X | 0 | 1 |
---|---|---|
p p p | 1 − p 1-p 1−p | p p p |
正面记作1,反面记作0。假设我们并不知道正反面的概率,分别记为 p p p, 1 − p 1-p 1−p
我们通过做了十次实验,得到实验数据【0,1,1,1,0,0,1,1,0,1】,我记这十次实验分别是
x
1
,
⋯
,
x
10
x_1,\cdots,x_{10}
x1,⋯,x10,整体用
x
x
x表示,也就是说
x
=
(
x
1
,
x
2
,
⋯
,
x
10
)
x=\begin{pmatrix}x_1,x_2,\cdots,x_{10}\end{pmatrix}
x=(x1,x2,⋯,x10)
对这种随机变量取二值的问题,很显然就是伯努利分布。
①写出似然函数,并由于样本之间独立同分布,故而根据前面提到的运算法则,有
max
p
P
(
x
)
=
∏
i
=
1
10
P
(
x
i
)
\max\limits_{p} P(x)=\prod\limits_{i=1}^{10}P(x_i)
pmaxP(x)=i=1∏10P(xi)
②取对数,并整理(
log
a
∗
b
=
log
a
+
log
b
\log a*b=\log a+\log b
loga∗b=loga+logb)
max
p
log
P
(
x
)
=
log
∏
i
=
1
10
P
(
x
i
)
=
∑
i
=
1
10
log
P
(
x
i
)
(3)
\max\limits_{p}\log P(x)=\log\prod\limits_{i=1}^{10}P(x_i)=\sum\limits_{i=1}^{10}\log P(x_i)\tag{3}
pmaxlogP(x)=logi=1∏10P(xi)=i=1∑10logP(xi)(3)
由伯努利分布可知,其概率为
P
(
x
i
)
=
p
x
i
(
1
−
p
)
1
−
x
i
P(x_i)=p^{x_i}(1-p)^{1-x_i}
P(xi)=pxi(1−p)1−xi
所以,式(3)得
max
p
log
P
(
x
)
=
∑
i
=
1
10
log
P
(
x
i
)
=
∑
i
=
1
10
log
(
p
x
i
(
1
−
p
)
1
−
x
i
)
=
∑
i
=
1
10
[
log
p
x
i
+
log
(
1
−
p
)
1
−
x
i
]
=
∑
i
=
1
10
[
x
i
log
p
+
(
1
−
x
i
)
log
(
1
−
p
)
]
\begin{aligned}\max\limits_{p}\log P(x)=&\sum\limits_{i=1}^{10}\log P(x_i)\\=&\sum\limits_{i=1}^{10}\log \left(p^{x_i}(1-p)^{1-x_i}\right)\\=&\sum\limits_{i=1}^{10}\left[\log p^{x_i}+\log (1-p)^{1-x_i}\right]\\=&\sum\limits_{i=1}^{10}\left[x_i\log p+{(1-x_i)}\log (1-p)\right]\end{aligned}
pmaxlogP(x)====i=1∑10logP(xi)i=1∑10log(pxi(1−p)1−xi)i=1∑10[logpxi+log(1−p)1−xi]i=1∑10[xilogp+(1−xi)log(1−p)]
③要求对数似然最大,就对
p
p
p求导
∂
log
P
(
x
)
∂
p
=
∑
i
=
1
10
[
x
i
1
p
−
(
1
−
x
i
)
1
1
−
p
]
\frac{\partial{\log P(x)}}{\partial{p}}=\sum\limits_{i=1}^{10}\left[x_i\frac{1}{p}-(1-x_i)\frac{1}{1-p}\right]
∂p∂logP(x)=i=1∑10[xip1−(1−xi)1−p1]
④令导数得0,并求解方程组
∑
i
=
1
10
[
x
i
1
p
−
(
1
−
x
i
)
1
1
−
p
]
=
0
\sum\limits_{i=1}^{10}\left[x_i\frac{1}{p}-(1-x_i)\frac{1}{1-p}\right]=0
i=1∑10[xip1−(1−xi)1−p1]=0
将其整理,得
p
=
∑
i
=
1
10
x
i
10
=
0.6
p=\frac{\sum\limits_{i=1}^{10}x_i}{10}=0.6
p=10i=1∑10xi=0.6
所以,我们求出了正面的概率为0.6,反面概率为0.4。我们知道,一般硬币正反的概率五五开,我们之所以求出这样的概率,是因为我们的实验样本少,当我们使用的样本足够多的时候,估计出来的参数就越准确。
2.8、信息熵
概念:描述信息源各可能事件发生的不确定性
公式如下
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
log
2
P
(
x
i
)
H(X)=-\sum\limits_{i=1}^nP(x_i)\log_2 P(x_i)
H(X)=−i=1∑nP(xi)log2P(xi)
信息熵引进案例
信息量:
当一件概率很小的事情发生了,我们往往会认为此事的信息量巨大。比如,你听说你那单身了20年的宅男舍友,竟然脱单了!其中猫腻,令人遐想。
而当一件概率很大的事情发生了,我们认为信息量比较少。比如你那当了20年的渣男舍友,突然换了一个女朋友。我们不会震惊,毕竟它是渣男。
所以,信息量的大小,与概率成反比。所以我们可以表达成这样(h(x)表示信息量)
h
(
x
)
=
1
p
(
x
)
h(x)=\frac{1}{p(x)}
h(x)=p(x)1
可是单单这样表达还不行,假如我们有两份不相关的事件(x,y)的时候
h
(
x
,
y
)
=
h
(
x
)
+
h
(
y
)
(4)
h(x,y)=h(x)+h(y)\tag{4}
h(x,y)=h(x)+h(y)(4)
对于事件相互独立,在概率上,我们有:
P
(
x
,
y
)
=
P
(
x
)
P
(
y
)
P(x,y)=P(x)P(y)
P(x,y)=P(x)P(y)。那么同理可得:
①:
h
(
x
,
y
)
=
1
P
(
x
,
y
)
=
1
P
(
x
)
+
P
(
y
)
②:
h
(
x
)
+
h
(
y
)
=
1
P
(
x
)
+
1
P
(
x
)
①:h(x,y)=\frac{1}{P(x,y)}=\frac{1}{P(x)+P(y)}\\②:h(x)+h(y)=\frac{1}{P(x)}+\frac{1}{P(x)}
①:h(x,y)=P(x,y)1=P(x)+P(y)1②:h(x)+h(y)=P(x)1+P(x)1
很显然,根据式(4),①和②应该相等才对,但是此时却不相等。所以,为了保证一致性,我们把信息量表示成这样
h
(
x
)
=
log
2
1
P
(
x
)
=
−
log
2
P
(
x
)
h(x)=\log_2\frac{1}{P(x)}=-\log_2P(x)
h(x)=log2P(x)1=−log2P(x)
表达成这样后,我们再来算一次
h
(
x
,
y
)
=
−
log
2
P
(
x
,
y
)
=
−
log
2
P
(
x
)
P
(
y
)
=
−
log
2
P
(
x
)
−
log
2
P
(
y
)
=
h
(
x
)
+
h
(
y
)
h(x,y)=-\log_2P(x,y)=-\log_2 P(x)P(y)=-\log_2 P(x)-\log_2 P(y)=h(x)+h(y)
h(x,y)=−log2P(x,y)=−log2P(x)P(y)=−log2P(x)−log2P(y)=h(x)+h(y)
这样,就保证了恒等了。
那为什么对数的底数为什么要取2呢?这是因为 1 P ( x ) \frac{1}{P(x)} P(x)1是一个恒大于0的数,如果对数的底数小于0,就变成了单调递减函数,那么 log h ( x ) = log 1 P ( x ) ≤ 0 \log h(x)=\log \frac{1}{P(x)}\le0 logh(x)=logP(x)1≤0;信息量显然不能是负数,所以,底数必须要取一个大于1的数。于是根据习惯,就取了2
信息量 —> 信息熵
信息量是对某个已经发生的事件而计算的,当我们设定的是某一个随机变量,其包含所有事件发生的可能,那么信息熵的定义就是,这些事件,在概率发生的情况下,带来的平均信息量
也就是
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
log
2
P
(
x
i
)
=
−
E
[
log
2
P
(
X
)
]
H(X)=-\sum\limits_{i=1}^nP(x_i)\log_2 P(x_i)=-\mathbb{E}\left[\log_2 P(X)\right]
H(X)=−i=1∑nP(xi)log2P(xi)=−E[log2P(X)]
2.9、KL散度(相对熵)
概念:一种用于衡量两个概率分布之间的差异的指标
公式如下
K
L
(
q
∣
∣
p
)
=
∑
q
(
x
)
log
q
(
x
)
p
(
x
)
=
∫
q
(
x
)
log
q
(
x
)
p
(
x
)
d
x
KL(q||p)=\sum q(x)\log\frac{q(x)}{p(x)}=\int q(x) \log \frac{q(x)}{p(x)}dx
KL(q∣∣p)=∑q(x)logp(x)q(x)=∫q(x)logp(x)q(x)dx
其表示的是概率分布q跟概率分布p的相似性
我们把KL散度的公式转化一下
K
L
(
q
∣
∣
p
)
=
∑
q
(
x
)
log
q
(
x
)
p
(
x
)
=
∑
q
(
x
)
[
log
q
(
x
)
−
log
p
(
x
)
]
\begin{aligned}KL(q||p)=&\sum q(x)\log \frac{q(x)}{p(x)}\\=&\sum q(x)\left[\log q(x)-\log p(x)\right]\end{aligned}
KL(q∣∣p)==∑q(x)logp(x)q(x)∑q(x)[logq(x)−logp(x)]
我们可以发现这个公式跟信息熵的公式相当之像,如果从信息熵的角度去看的话(
log
\log
log底数取2),其就可以表达成两个概率分布的信息熵的差值
性质:非负性, K L ( q ∣ ∣ p ) ≥ 0 KL(q||p)\ge0 KL(q∣∣p)≥0。等于0时表示两个概率分布相等
性质:非对称性
K
L
(
q
∣
∣
p
)
≠
K
L
(
p
∣
∣
q
)
KL(q||p)\neq KL(p||q)
KL(q∣∣p)=KL(p∣∣q)
3、结束
以上,就是本篇文章的全部内容了,如有问题,还望指出,阿里嘎多!
4、参考
①概率论与数理统计(吴赣昌主编)