MLaPP Chapter 2 Probability 概率论

2.1 Introduction 简介

对概率一般有两种理解(interpretations):

  • frequentist interpretation,
    • 这个层面上是说,概率可以看作是多次事件实验的发生的频率的逼近
    • 举个例子,假如进行很多次抛硬币实验,会发现最终硬币会出现正面的概率为0.5
  • Bayesian interpretation,
    • 贝叶斯派常把概率当做是量化事件不确定性的工具
      • 原文 (probability is used to quantify our uncertainty about something)
    • 贝叶斯派理解概率的好处是,可以拿来估算那些无法进行多次重复实验的事件
      • 如2020年之前北极冰川融化的概率

2.2 A brief review of probability theory 概率论复习

2.2.1 Discrete random variables 离散随机变量

p(X=x) 表示离散随机变量 X 在有限或者可数无限集合中取 X=x 值时的概率, p() 称作是 probability mass function or pmf

2.2.2 Fundamental rules 基本规则

2.2.2.1 Probability of a union of two events 事件的并集

p(AB)=P(A)+p(B)P(AB)
其中, p(AB)=0 时表示互斥

2.2.2.2 Joint probabilities 联合概率

  • Joint probabilities 联合概率
    • p(A,B)=p(AB)=p(A|B)P(B)=P(B|A)P(A)
    • 联合概率可以通过条件概率得到,有时候称为 product rule
  • margin distribution 边缘分布公式:
    • p(A)=bp(A,B)=bp(A|B)p(B=b)
    • 边缘分布可以有联合概率分布沿着特定的随机变量求和得到,有时候称为 sum rule or the rule of total probability

2.2.2.3 Conditional probability 条件概率

p(A|B)=p(A,B)p(B),if p(B)>0

2.2.3 Bayes rule 贝叶斯规则

p(X=x|Y=y)=p(X=x,Y=y)p(Y=y)=p(X=x)p(Y=y|X=x)xp(X=x)p(Y=y|X=x)

2.2.3.1 Example: medical diagnosis

癌症检测的敏感度是80%,即如果你有癌症,那么检测阳性的概率为80%, x=1 表示检测阳性, y=1 表示有癌症,上述的敏感度表示为: p(x=1|y=1)=0.8 ,事实上,癌症在人群中的发病率为 0.004,即 p(y=1)=0.004 ,这个是前验概率,prior probability。忽略先验信息而想当然的认为检测阳性后就有80%的可能会患癌症,叫做基数谬误,base rate fallacy,而false positive or false alarm,即诊断错误的概率,没有癌症但是检测为阳性,概率为 p(x=1|y=0)=0.1

利用上面的信息和贝叶斯规则,就可推断出正确的答案了,即检测为阳性的情况下,实际也是的癌症的概率为

p(y=1|x=1)=p(x=1|y=1)p(y=1)/p(x=1)=0.80.004/0.1028=0.031
其中分母,
p(x=1)=p(x=1|y=1)p(y=1)+p(x=1|y=0)p(y=0)=0.80.004+0.10.996=0.1028

2.2.3.2 Example: Generative classifiers

  • 生成分类器(generative classifier)
    • 因为我们用到了class-conditional density p(x|y=c) 和 先验 prior p(y=c)
  • 判别分类器(discriminative classifier),直接判别

2.2.4 Independence and conditional independence 独立和条件独立

X, Y 是无条件独立 unconditional independent 或者 marginally independent ,用 XY 表示,如下:

XYp(X,Y)=p(X)p(Y)
如果联合概率可以写成边缘概率的乘积,那么这两个随机变量是互斥的(mutually exclusive)

现实中无条件独立很少见,条件独立更常见 

XY|Zp(X,Y|Z)=p(X|Z)p(Y|Z)
原文如下:X and Y are conditionally independent given Z iff the conditional joint can be written as a product of conditional marginals
此外,图模型中也有解释,见chapter 10

Theorem 2.2.1

XY|Z 当且仅当存在函数 g,h 使得 p(x,y|z)=g(x,z)h(y,z)

Conditional Independent 能让我们一点点建立大概率模型,朴素贝叶斯,马尔科夫模型,图模型中均有应用。

2.2.5 Continuous random variables 连续随机变量

连续随机变量X取值在区间 [a,b] 内,a Xb ,定义事件 A=(Xa) 和事件 B=(Xb) ,事件 W=(a<Xb) ,那么事件 BAW 的关系是 B=AW ,即事件 B 包含 A W
可得 p(B)=p(A)+p(W) p(W)=p(B)p(A)

由此定义函数 F(q)p(Xq) 称为积累分布函数(cumulative distribution function, cdf),显然是单调递增函数(monotonically increasing function)

p(a<Xb)=F(b)F(a)
定义 F(x) 的导数为 f(x)=dF(x)dx ,称为概率密度函数 probability density function, pdf
反之可以求积分,
F(a<Xb)=baf(x)dx
p(x) 可以大于零,只要求的积分为 1 就可以了。比如区间长度小于1的均匀分布(uniform distribution)
Unif(x|a,b)=1baI(axb)

2.2.6 Quantiles 分位数

对任意的 p 0<p<1 , 称 P(X)=p X 为此分布的分数位(quantile),比如某分布有 F(3)=0.5 表示 P(X3)=0.5 ,则 3 就是这个分布的中值(median)分位数。换句话说,分位数就是取到某概率时的 x 坐标值。分布函数的反函数(或者叫逆函数,inverse function), F1 可以很方便地表示分数位。

思考,为什么区间 [μ1.96σ,μ+1.96σ] 占据了高斯分布中 95% 的数据?

2.2.7 Mean and variance 均值和方差

平均数(Mean)定义如下:

离散随机变量: E(x)xXx p(x)

连续随机变量: E(x)xXx p(x) dx

方差定义如下:

var[X]E[(Xμ)2]=E[X2]μ2

2.3 Some common discrete distributions 常见的离散分布

2.3.1 The binomial and Bernoulli distributions 二项分布和伯努利分布

考虑扔硬币问题,假如扔 n 次硬币,那么正面朝上的次数定义为随机变量 X ,显然有 X{0,...,n} ,若正面朝上的概率为 θ 的话,那么可以说 X 符合二项分布,写作 XBin(n,θ) ,pmf(概率质量函数)为:

Bin(k|n,θ)Cknθk(1θ)nk

上面的组合数称为二项系数(binomial coefficient),二项分布的期望为 nθ ,方差为 nθ(1θ)

假如只扔一次硬币,那么 X{0,1} ,那么随机变量 X 是符合伯努利分布的,写作 XBer(x|θ) ,pmf(概率质量函数)为:

Ber(x|θ)=θI(x=1)(1θ)I(x=0)
或者写做
Ber(x|θ)={θ1θif x=1if x=0

所以,伯努利分布只是二项分布的一种特殊情况。

2.3.2 The multinomial and numtinoulli distributions 多项式分布和多努利分布

多项式分布可以对一个 K 面的筛子(K-side die)建模,定义随机向量 x=(x1,...,xK) ,其中 xj 表示投掷 n 次筛子时第 j 面出现的次数。要计算随机向量出现的概率,这应该是一个有放回的组合问题,概率质量函数如下:

Mu(x|n,θ)(nx1,...,xK)j=1Kθxjj
系数中的组合数称作是多项式系数,定义为:
(nx1,...,xK)n!xx!x2!xK!

n=1 ,意味着只投掷一次筛子,此时随机向量 x 就是一堆的 0 和一个 1 而已,称作是 one-hot encoding,可写作 x=[I(x=1),...,I(x=K)] ,概率质量函数 pmf 为:

Mu(x|1,θ)=j=1KθI(xj=1)j

这个分布有三种叫法:
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution

当然也有专门的符号表示:

Cat(x|θ)Mu(x|1,θ)

2.3.2.1 Application: DNA sequence motifs

这个例子没太看懂要做啥,不太重要吧?

2.3.3 The Poisson distribution 泊松分布

给定离散随机变量 X{0,1,2,...} , 定义泊松分布的 pmf 为:

Poi(x|λ)=eλλxx!

第一项是归一化系数,为了保证整个分布的和为 1 ,其中参数 λ>0

2.3.4 The empirical distribution 经验分布

经验分布又叫经验测量(empirical measure),给定一组数据 D={x1,...,xN} ,我们想统计一下里面有多少数据是在集合 A 中的,按照下面的公式计算:

pemp(A)1Ni=1Nδxi(A)
其中 δx(A) 叫做狄拉克测度(Dirac measure),定义为
δx(A)={01if xAif xA

广义上可以将每个样本关联一个权重,那么有:
p(x)=i=1Nwiδxi(x)
其中要求 0wi1 and Ni=1wi=1

然而翻了一下网上对经验分布的解释,一般表述为,把样本集中的所有样本按照从小到大的顺序排序,计算其积累分布,就得到了经验分布。

Pˆ(X=x)=1ni=1nI(xix)

2.4 Some commom continuous distributions

下面提到的连续分布都是一维的概率分布(univariate(one-dimensional) continuous probability distributions)

2.4.1 Gaussian (normal) distribution 高斯分布

统计学和机器学习中最常用的应该就是高斯分布了,其概率密度函数(pdf)公式如下:

N(x|μ,σ2)12πσ2e12σ2(xμ)2

其中,参数 μ=E[X] 表示平均数, σ2=var[X] 表示方差, 2πσ2 表示归一化的常数,保证密度的积分为 1 。可以用 XN(μ,σ2) 来表示 p(X=x)N(μ,σ2) 。一般用 XN(0,1) 表示 X 服从标准高斯分布(standard normal distribution)

定义 λ=1σ2 为高斯的精密度,和方差意思相对。高的精密度意味着小方差,数据会集中在均值附近。

高斯分布的积累分布函数(cdf)为概率密度函数(pdf)的积分:

Φ(x;μ,σ2)xN(z|μ,σ2)dz

可以用误差函数 error function (erf) 来计算,

Φ(x;μ,σ)=12[1+erf(z2)]

其中 z=(xμ)σ erf(x)2πx0et2

高斯分布之所以在统计学中应用如此之广泛,除了其两个参数很有解释(interpret)之外,而且很适合拿来给残差(residual error)或者说噪音(error)建模等诸多原因。

2.4.2 Degenerate pdf 退化的概率密度函数

限制 σ20 ,高斯分布的函数图像变成了一个无限高,无限瘦,以 μ 为中心的脉冲:

limσ20N(x|μ,σ2)=δ(xμ)
这里的 δ 称作是 Dirac delta function,定义为:
δ(x)={0if x=0if x0
同时保持在实数域上的积分为 1

δ 函数可以拿来做筛选,信号与系统中常用到,如: f(x)δ(xμ)dx=f(μ)


然而高斯分布一般会对异常值(outliers,离群值)很敏感,因为 log-probability 只是二次衰减。一个更鲁棒的分布是 Student t distribution,pdf 定义如下:

T(x|μ,σ2,ν)[1+1ν(xμσ)2](ν+12)
其中 μ 是均值,要满足 ν>1 才有意义。 σ2>0 为放缩参数(scale parameter), ν>0 为自由度(degrees of freedom),t 分布的方差是 var = νσ2ν2 ,但是方差要在 ν>2 的条件下才有意义。

图 Figure 2.8 展示了异常值(outliers)对高斯分布影响很大,但是对 T 分布和拉普拉斯分布影响较小。

若取 ν=1 ,那么此时称为是 柯西或者洛伦兹分布(Cauchy or Lorentz distribution),一般取 ν=4 ,T 分布会取得很好的效果,当 ν5 时,学生分布会快速接近高斯分布,失去其鲁棒性的性质。

2.4.3 The Laplace distribution 拉普拉斯分布

拉普拉斯分布有很重的尾巴(with heavy tails),又称作是 双边指数分布(double sided exponential distribution),pdf 如下:

Lap(x|μ,b)12bexp(|xμ|b)
均值为 μ ,方差为 2b2 ,拉普拉斯分布的概率密度在均值处更集中,瑰丽模型的稀疏性。

2.4.4 The gamma distribution 伽马分布

伽马分布的变量为正实数,有两个参数来定义, a>0 决定形状(shape), b>0 决定比率(rate),

Ga(T|shape=a,rate=b)baΓ(a)Ta1eTb
其中 Γ(a) 是伽马函数,
Γ(x)0ux1eudu
伽马分布下列的性质,均值 a/b ,方差 a/b2

伽马分布的一些特殊情况:
1. Exponential distribution    Expon(x|λ)Ga(x|1,λ)
2. Erlang distribution 和伽马分布相同,只是 a 要求为整数,一般固定为 2
3. Chi-squared distribution    X2(x|ν)Ga(x|ν2,12)

XGa(a,b) ,那么有 1XIG(a,b) ,其中 IG 为逆伽马分布(Inverse Gamma)其性质略。

2.4.5 The Beta distribution 贝塔分布

定义如下:

Beta(x|a,b)=1B(a,b)xa1(1x)b1
其中 B(a,b) 为贝塔函数 B(a,b)Γ(a)Γ(b)Γ(a+b) a,b>0 时分布是可积分的, a=b=1 时为均匀分布,若 a,b<1 时,可以得到双峰分布;若 a,b>1 时,可以得到单峰分布。贝塔分布的性质如下:
mean=aa+b,mode=a1a+b2,var=ab(a+b)2(a+b+1)

2.4.6 Pareto distribution 柏拉图分布

柏拉图分布侧重对数据长长的“尾巴”建模,pdf 如下:

Pareto(x|k,m)=kmkx(k+1)I(xm)

2.5 Joint probability distributions 联合概率分布

前面讲的都是一元概率分布(univariate probability distributions),下面拓展到联合概率分布上(Joint probability distributions)。

向量 p=(x1,...,xD) D>0 个向量,联合概率分布可以对这些变量之间的相互关系进行建模。如果所有的变量都是离散的,那么可以用多维矩阵来表示此联合分布,每个维度对应一个随机变量。
实际中,我们可以做随机变量之间的条件独立性来减少参数的个数。
对于连续分布,可以显示概率密度函数为确定的泛函的形式。

2.5.1 Covariance and correlation 协方差和相关性

两个随机变量 X Y 的协方差(covariance)可以衡量 X Y 的相关程度。定义如下:

cov[X,Y]  E[(XE[X])(YE(Y))]=E[XY]E[X]E[Y]

引申到 d 维的随机向量 x ,可以定义协方差矩阵(covariance matrix)为下列的对称的,正定的矩阵(symmetric, positive definite matrix):

cov[x]  E[(xE(x))(xE(x))T]=var[X1]cov[X2,X1]cov[Xd,X1]cov[X1,X2]var[X2]cov[Xd,X2]cov[X1,Xd]cov[X2,Xd]var[Xd]
  • 随机变量的协方差矩阵 Σ 是对称矩阵和半正定矩阵
  • 作为实对称矩阵,其主要性质之一就是可以正交对角化,即存在正交矩阵U,使得 UTΣU=Λ
  • 作为半正定矩阵,我们可以对协方差矩阵进行Cholesky分解:半正定矩阵 Σ ,可以分解为 Σ=UTΛU ,其中 U 是上三角阵, Λ 是对角线元素都非负的对角矩阵。所以 Σ=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
    这样一来,矩阵 Σ=CTC ,其中 C=Λ1/2U

因为协方差的取值在 0 到正无穷之间,所以有时候需要做归一化处理,于是引申出了相关系数(Pearson correlation coefficient)的概念,公式如下:

corr[X,Y]cov[X,Y]var[X]var[Y]
相应的,相关性矩阵可写作下列的形式:
R=corr[X1,X1]corr[Xd,X1]corr[X1,X2]corr[Xd,X2]corr[X1,Xd]corr[Xd,Xd]

R 的取值在 [1,1] 之间,矩阵中的对角项都是同一个随机变量,因此相关系数为 1 ,而事实上,相关系数为 1 的充要条件是两个随机变量线性相关。如可以用相应的两个实数 a,b 联系起来: Y=aX+b

若随机变量 X,Y 相互独立(independent),意味着有 p(X,Y)=P(X)p(Y) 那么有 cov(X,Y)=0 ,因此相关系数为 0 可以表示两者不相关。然而反过来,不相关并不意味着两者一定要独立。(uncorrelated does not imply independent)

所以相关系数这鬼东西就没啥用喽!

2.5.2 The multivariate Gaussian 多元高斯

多元高斯(Multivariate Gaussian, Multivariate Normal, MVN)是对连续变量最常用的联合概率密度函数。 D 维的 MVN 的概率密度函数定义如下:

N(x|μ,Σ)1(2π)D/2|Σ|1/2exp[12(xμ)TΣ1(xμ)]
其中 μ=E[x]RD 为均值向量, Σ=cov[x] D×D 维的协方差矩阵。或者叫 precision matrix or concentration matrix. 又有符号 Λ=Σ1 .

2.5.3 Multivariate Student t distribution 多元 t 分布

公式太长了且不常用,略。

2.5.4 Dirichlet distribution 狄利克雷分布

贝塔分布(Beta distribution)的多元推广版本,称为狄利克雷分布,且分布符合概率单纯型的定义。(即该分布中的任意两点的运算,仍然落在该概率分布中,因此是凸集,且限定凸集的形状为单纯型)。

概率密度函数 pdf 为:

Dir(x|α)1B(α)k=1Kxαk1kI(xSK)
集合 SK 定义为:
SK={x:0xk1,k=1Kxk=1}
B(α1,...,αK) 是贝塔函数的 K 变量问题的自然推广,
B(α)Kk=1Γ(αk)Γ(α0)
其中,变量 α0Kk=1αk 控制了强度的分布(controls the strength of the distribution or how peaked it is),通俗点说,就是哪里会冒尖,哪里会平坦。

狄利克雷分布的一些性质如下:

E[xk]=αkα0, mode[xk]=αk1α0K, var[xk]=αk(α0αk)α20(α01)
其中, α0=kαk ,通常增大 α 会降低方差。

2.6 Tranformations of random variables 随机变量的变换

即已知随机变量 x 满足 xp() ,求 y=f(x) 的分布。

2.6.1 Linear transformations 线性变换

假设 f(x) 为线性函数, y=f(x) ,那么 y 的均值为

E[y]=E[Ax+b]=Aμ+b
方差为:
cov[y]=cov[Ax+b]=AΣAT

2.6.2 General transformations 一般的变换

X 是离散的随机变量,概率密度函数可以通过把所有的 y 加起来得到,即

py(y)=x:f(x)=ypx(x)
其中, px(x) x 的概率质量函数。

X 是连续的随机变量,考虑对应 Y 的积累分布函数(cdf),

Py(y)P(Yy)=P(f(X)y)=P(X{x|f(x)y})
所以可以通过对此函数求导数得到概率密度函数(derive the pdf of y by differentiating the cdf),要求解上述公式,还要进一步限定 y=f(x) 是单调的(monotonic),因此也是可逆的。故可以进一步得到:
Py(y)=P(f(X)y)=P(Xf1(y))=Px(f1(y))

求概率密度函数,可以通过求导数得到,带入上式的结果可得:
py(y)ddyPy(y)=ddyPx(f1(y))=dxdyddxPx(x)=dxdypx(x)

2.6.2.1 Multivariate change of variables *

上述问题的多元推广,这里先引入雅各比矩阵(Jacobian matrix)的概念,定义函数 f:RnRn ,令 y=f(x) ,那么雅各比矩阵为:

Jxy(y1,...,yn)(x1,...,xn)y1x1ynx1y1xnynxn

上小节的结论推广如下:

py(y)=px(x) | det(xy) |=px(x) | det Jyx |
其中 det Jyx 表示单位 n 维封闭空间在应用函数 f 后面积的改变大小。

2.6.3 Central limit theorem 中心极限定理

首先,中心极限定理很神奇。其次,上面讲的随机变量的变换,其实是为了这个定理做的铺垫。(Really? I doublt that.)问题描述如下,假设有一组的独立同分布(independent and identically distributed, iid)的样本数据,其均值和方差分别是 μ σ2 ,那么可以定义求和函数 SN=Ni=1Xi ,其实是原随机变量的变换,但是这个得到的新随机变量,是逐渐逼近高斯分布的。注意这里的 X 的分布是没有限制的,可以是任意分布,只要所有数据符合独立同分布即可。概率密度函数如下:

p(SN=s)=12πNσ2exp((sNμ)22Nσ2)

也可以在此基础上做归一化,有

ZNSNNμσN=X¯¯¯μσ/N  N(0,1)
ZN 是符合标准的高斯分布的。通俗点说就是,符合任意分布的数据,多次采样的和构成的分布是符合高斯分布的。

这些就是中心极限定理的内容。中心极限定理在概率统计里非常重要,是概率论中的非正式首席定理,也是后续很多理论的基石。可以参考《正态分布的前世今生》这篇科普短文。

2.7 Monte Carlo approximation 蒙特卡洛近似

一般来说,用 the change of variables formula 来计算某随机变量函数的分布是很困难的,因此要采取求近似解的方法,如蒙特卡罗模拟。首先,我们从要求的分布中采样(比如用马尔可夫链蒙特卡洛方法,Markov chain Monte Carlo or MCMC),这 S 个样本为 x1,...,xS ,而 f(X) 的分布就可以用经验分布 {f(xs)}Ss=1 来估计(approximation)。要求均值的话,也可以近似出来,

E[f(X)]=f(x)p(x)dx1Ss=1Sf(xs)
其中 xsp(X) ,而上面的方法就称为蒙特卡洛积分法(Monte Carlo integration)

下面的结论也成立:

  • x¯=1SSs=1xsE[X]
  • 1SSs=1(xsx¯)2E[X]
  • 1S#{xsc}=P(Xc)
  • median{x1,...,xS}=median(X)

2.7.1 Example: change of variables, the MC way

已知均匀分布: xUnif(1,1) y=f(x)=x2 ,那么求 y 的分布。

2.7.2 Example: estimating π by Monte Carlo integration

用蒙特卡洛积分来估计 π 的值,直接计算下列的定积分,

I=rrrrI(x2+y2r2)dxdy

故可得 π=I/r2 ,后统计随机点 (xs,ys) 的出现的概率为 p(xs,ys) ,可以近似的算出 π 的值。

2.7.3 Accuracy of Monte Carlo approximation

蒙特卡洛近似的准确率取决于样本的大小,因为误差是随着样本容量的增大而逐渐逼近高斯分布的。即

(μˆμ)N(0,σ2S)
其中, μˆ,S 是样本中的均值和样本大小, μ,σ2 是实际的均值和方差。

当然,实际的方差 σ2 也是不知道的,也要通过蒙特卡洛的方法来估计,

σˆ2=1Ss=1S(f(xs)μˆ)2

要深刻理解蒙特卡洛的方法不简单,因为其方法要求的数学知识太多,可以参考《LDA数学八卦》这篇都科普短文,当然我们后面章节还会再次提到。

2.8 Information theory 信息理论

信息理论做的事,基本就是用紧凑的方式表示数据,或者叫数据压缩(data compression)或者信源编码(source coding),使得数据在传输的时候能保持很好的容错性。

2.8.1 Entropy 熵

随机变量 X 的熵可以用来表示其不确定性,定义如下:

H(X)k=1Kpklog2pk
当然,这个是离散的随机变量的熵的定义, K 表示总的状态数。一般基底取值为 2 ,所以熵的单位是 bits;若是去自然底数 e ,那么但是可以称作是 nats.

从熵的定义中很容易得到推论,令熵最大(为 log2K )的分布是均匀分布的,此时不确定性最大;相反,可以令熵最小(为零)的分布是 一个脉冲,delta function,此时不确定性为0,即完全100%地确定。

我们可以通过伯努利分布的例子来探究一下熵的直观意义。已知 p(X=1)=θ ,那么熵为:

H(X)=[p(X=1)log2p(X=1)+p(X=0)log2p(X=0)]=[θlog2θ+(1θ)log2(1θ)]

从插图 Figure 2.21 中可以看到熵最大最小的情况。

有时候,我们会把方差和熵拿来做一个比较,因为这两个量都可以衡量数据的分布情况,且看起来负相关。然而方差侧重的是数据的离散程度,和随机变量的取值有关;而熵则只关注数据的分布,和数据本身的取值无关,这点也表现在熵的定义上面。

2.8.1-2 cross-entropy 交叉熵

离散的信息熵有时候可以解释为编码数据集需要的比特数的期望值,如对于数据集 D={A,B,C,D} 的一个分布 p={12,12,0,0} ,熵 H(p)=4j=1pilogpi=1 ,即只需要一个比特就可以编码这个分布。

假如我们的得到了一个错误的分布 q={14,14,14,14} ,我们可以用 q 来编码分布 p ,可以这样来计算熵, H(p,q)=4j=1pilogqi=2 ,即用错误的分布来编码原来的分布,需要两个比特位才能满足,即四个字母都要编码进去。

上面这种计算两个分布的熵的形式,就是交叉熵的概念,

H(p,q)kpklogqk
注意这里 p 是原分布, q 是错误的分布,顺序不可以调换。

2.8.2 KL divergence 离散度

KL散度,Kullback-Leibler divergence,或者叫相对熵(relative entropy),定义如下:

KL(p||q)k=1Kpklogpkqk
也可以展开写,
KL(p||q)=kpklog1qkkpklog1pk=H(p,q)H(p)

可以发现离散度就是交叉熵减去原来的熵,且总是非负的。

Theorem 2.8.1. (Information inequality)    KL(p||q)0 with equality iff p=q

信息不等式表示,当且仅当两个分布是相同的,相对熵才为零。不等式的正确性可以用琴生不等式证明。

2.8.3 Mutual information 互信息

考虑两个离散的随机变量 X,Y ,定义如下:

I(X;Y)KL(p(X,Y)||p(X)p(Y))=xyp(x,y)logp(x,y)p(x)p(y)

恒有 I(X,Y)0 成立,当且仅当满足 p(X,Y)=p(X)p(Y) 时等号成立。即只有变量独立时,互信息才为零。

把互信息写成联合熵和条件熵的形式:

I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)
其中 H(Y|X) 为条件熵(conditional entropy), H(Y|X)=xp(x)H(Y|X=x)

另外有衡量点对点之间的互信息(pointwise mutual information, PMI),定义为在两个事件中,

PMI(x,y)logp(x,y)p(x)p(y)=logp(x|y)p(x)=logp(y|x)p(y)

2.8.3.1 Mutual information for continuous random variables

略~
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值