《深度学习》 第3章 概率与信息论

《深度学习》 第3章 概率与信息论

概率不仅提供量化不确定性的方法,也提供了用于导出新的不确定性声明的公理

为什么要使用概率

不确定性有三种来源:

  1. 被建模系统内在的随机性
  2. 不完全观测
  3. 不完全建模

频率派概率:概率直接与事件发生的频率相联系
贝叶斯概率:概率涉及到确定性水平

随机变量

概率分布

离散型变量和概率质量函数

∑ i P ( x = x i ) = ∑ i 1 k = 1 \sum_iP(\mathrm x = x_i) = \sum_i\frac1k = 1 iP(x=xi)=ik1=1

连续型变量和概率模型函数

∫ p ( x ) d x = 1 \int p(x) dx = 1 p(x)dx=1

边缘概率

∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) \forall x \in \mathrm x,P(\mathrm x = x) = \sum_yP(\mathrm x = x, \mathrm y = y) xx,P(x=x)=yP(x=x,y=y)
p ( x ) = ∫ p ( x , y ) d y p(x) = \int p(x, y)dy p(x)=p(x,y)dy

条件概率

P ( y = y ∣ x = x ) = P ( y = y , x = x ) P ( x = x ) P(\mathrm y = y | \mathrm x = x) = \frac {P(\mathrm y = y, \mathrm x = x)} {P(\mathrm x = x)} P(y=yx=x)=P(x=x)P(y=y,x=x)
不要把条件概率干预查询相混淆

条件概率的链式法则

P ( x ( 1 ) , … , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( 1 ) , … , x ( i − 1 ) ) P(\mathrm x^{(1)},\ldots,\mathrm x^{(n)}) = P(\mathrm x^{(1)})\prod_{i=2}^nP\left(\mathrm x^{(1)},\ldots,\mathrm x^{(i-1)}\right) P(x(1),,x(n))=P(x(1))i=2nP(x(1),,x(i1))

独立性和条件独立性

∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x \in \mathrm x, y \in \mathrm y, p(\mathrm x = x, \mathrm y = y) = p(\mathrm x = x)p(\mathrm y = y) xx,yy,p(x=x,y=y)=p(x=x)p(y=y)
∀ x ∈ x , y ∈ y , z ∈ z , p ( x = x , y = y ∣ z = z ) = p ( x = x ∣ z = z ) p ( y = y ∣ z = z ) \forall x \in \mathrm x, y \in \mathrm y, z \in \mathrm z, p(\mathrm x = x, \mathrm y = y | \mathrm z = z) = p(\mathrm x = x| \mathrm z = z)p(\mathrm y = y | \mathrm z = z) xx,yy,zz,p(x=x,y=yz=z)=p(x=xz=z)p(y=yz=z)

期望、方差和协方差

协方差给出了两个变量线性相关性的强度以及变量的尺度
C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] \mathrm{Cov}(f(x), g(y)) = \mathbb E[(f(x) - \mathbb E[f(x)])(g(y) - \mathbb E[g(y)])] Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]

相关系数将变量贡献归一化,只衡量变量的相关性。

独立性零协方差要求更严,因为独立性还排除了非线性的关系

常见概率分布

Bernoulli分布

Multinoulli分布

高斯分布

N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) \mathcal N(x;\mu, \sigma^2) = \sqrt{\frac {1}{2\pi\sigma^2}} \mathrm{exp} \left( -\frac{1}{2\sigma^2}(x - \mu)^2 \right) N(x;μ,σ2)=2πσ21 exp(2σ21(xμ)2)

正态分布是比较好的默认选择,原因有二:

  1. 很多分布的真实情况接近正态分布
  2. 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性

指数分布和Laplace分布

p ( x ; λ ) = λ 1 x ≥ 0 e x p ( − λ x ) p(x;\lambda) = \lambda 1_{x \geq 0} \mathrm {exp}(-\lambda x) p(x;λ)=λ1x0exp(λx)
L a p l a c e ( x ; μ , γ ) = 1 2 γ e x p ( − ∣ x − μ ∣ γ ) \mathrm{Laplace}(x;\mu,\gamma) = \frac{1}{2\gamma} \mathrm{exp}\left( -\frac{|x - \mu|}{\gamma} \right) Laplace(x;μ,γ)=2γ1exp(γxμ)

Dirac分布和经验分布

p ( x ) = δ ( x − μ ) p(x) = \delta(x - \mu) p(x)=δ(xμ)
p ^ ( x ) = 1 m ∑ i = 1 m δ ( x − x ( i ) ) \hat p(x) = \frac 1m \sum_{i=1}^{m}\delta(x-x^{(i)}) p^(x)=m1i=1mδ(xx(i))
可以认为从训练集上得到的经验分布指明了采样来源的分布,其是训练数据的似然最大的那个概率密度函数

分布的混合

混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略。

一种非常强大且常见的混合模型是高斯混合模型,其是概率密度的万能近似器

常用函数的有用性质

σ ( x ) = 1 1 + e x p ( − x ) \sigma(x) = \frac {1}{1 + \mathrm{exp}(-x)} σ(x)=1+exp(x)1
ζ ( x ) = l o g ( 1 + e x p ( x ) ) \zeta(x) = \mathrm{log}(1 + \mathrm{exp}(x)) ζ(x)=log(1+exp(x))
x + = m a x ( 0 , x ) x^+ = \mathrm{max}(0, x) x+=max(0,x)

下面一些性质有用:
σ ( x ) = e x p ( x ) e x p ( x ) + e x p ( 0 ) \sigma(x) = \frac{\mathrm{exp}(x)}{\mathrm{exp}(x) + \mathrm{exp}(0)} σ(x)=exp(x)+exp(0)exp(x)
d d x σ ( x ) = σ ( x ) ( 1 − σ ( x ) ) \frac{d}{dx}\sigma(x) = \sigma(x)(1-\sigma(x)) dxdσ(x)=σ(x)(1σ(x))
1 − σ ( x ) = σ ( − x ) 1-\sigma(x) = \sigma(-x) 1σ(x)=σ(x)
l o g σ ( x ) = − ζ ( − x ) \mathrm{log}\sigma(x) = -\zeta(-x) logσ(x)=ζ(x)
d d x ζ ( x ) = σ ( x ) \frac{d}{dx}\zeta(x) = \sigma(x) dxdζ(x)=σ(x)
∀ x ∈ ( 0 , 1 ) , σ − 1 ( x ) = l o g ( x 1 − x ) \forall x \in (0,1), \sigma^{-1}(x) = \mathrm{log}\left(\frac{x}{1-x} \right) x(0,1),σ1(x)=log(1xx)
∀ x > 0 , ζ − 1 ( x ) = l o g ( e x p ( x ) − 1 ) \forall x > 0, \zeta^{-1}(x) = \mathrm{log}(\mathrm{exp}(x)-1) x>0,ζ1(x)=log(exp(x)1)
ζ ( x ) = ∫ − ∞ x σ ( y ) d y \zeta(x) = \int_{-\infty}^x\sigma(y)dy ζ(x)=xσ(y)dy
ζ ( x ) − ζ ( − x ) = x \zeta(x) - \zeta(-x) = x ζ(x)ζ(x)=x

贝叶斯规则

P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(\mathrm x | \mathrm y) = \frac{P(\mathrm x)P(\mathrm y |\mathrm x)}{P(\mathrm y)} P(xy)=P(y)P(x)P(yx)

连续变量型的技术细节

∣ p y ( g ( x ) ) d y ∣ = ∣ p x ( x ) d x ∣ |p_y(g(x))dy| = |p_x(x)dx| py(g(x))dy=px(x)dx

信息论

对一个信号包含信息的多少进行量化

三个性质:

  • 非常可能发生的事件信息量要比较少
  • 较不可能发生的事件具有更高的信息量
  • 独立事件应具有增量的信息

自信息
I ( x ) = − l o g P ( x ) I(x) = -\mathrm{log}P(x) I(x)=logP(x)

一奈特是以 1 / e 1/e 1/e的概率观测到一个事件时获得的信息量

香农熵
H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(\mathrm x) = \mathbb E_{\mathrm x \sim P}[I(x)] = -\mathbb E_{\mathrm x \sim P}[\mathrm{log}P(x)] H(x)=ExP[I(x)]=ExP[logP(x)]
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量

KL散度衡量两个独立的概率分布的差异:
D K L ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] = E x ∼ P [ l o g P ( x ) − l o g Q ( x ) ] D_{\mathrm{KL}}(P||Q) = \mathbb E_{\mathrm x \sim P} \left[ \mathrm{log} \frac{P(x)}{Q(x)} \right] = \mathbb E_{\mathrm x \sim P}[\mathrm{log}P(x)-\mathrm{log}Q(x)] DKL(PQ)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]

在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布 Q Q Q产生的消息的长度最小的编码,发送包含由概率分布 P P P产生的符号的消息时,所需要的额外信息量。或者说是数据的原始分布 P P P和近似分布 Q Q Q之间的对数差值的期望。

交叉熵:
H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E x ∼ P l o g Q ( x ) H(P,Q) = H(P) + D_{\mathrm{KL}}(P||Q) = -\mathbb E_{\mathrm x \sim P}\mathrm{log}Q(x) H(P,Q)=H(P)+DKL(PQ)=ExPlogQ(x)

针对 Q Q Q最小化交叉熵等价于最小化KL散度,因为 Q Q Q并不参与被省略的那一项

结构化概率模型

有向模型:
p ( x ) = ∏ i p ( x i ∣ P a G ( x i ) ) p(\mathrm x) = \prod_ip(\mathrm x_i|Pa_\mathcal G(\mathrm x_i)) p(x)=ip(xiPaG(xi))
无向模型:
p ( x ) = 1 Z ∏ i ϕ ( i ) ( C ( i ) ) p(\mathrm x) = \frac{1}{Z}\prod_i\phi^{(i)}(\mathcal C^{(i)}) p(x)=Z1iϕ(i)(C(i))
这些图模型表示的分解仅仅是描述概率分布的一种语言

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值