统计机器学习中的一些概念

fig1

最大似然估计

假设我们现在有一批数据,我们想要用一个概率分布去拟合这批数据,概率分布模型的概率密度函数会有一些参数,我们需要参数估计方法获得参数,以得到实际的概率密度函数。

最大似然估计就是一种参数估计方法。

首先,对于一批数据 X = { x 0 , . . . x n } X=\left\{x_{0},...x_{n}\right\} X={x0,...xn},概率分布的参数为 θ \theta θ,有下面式子(贝叶斯公式): p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) ∝ p ( X ∣ θ ) p ( θ ) p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}\propto p(X|\theta)p(\theta) p(θX)=p(X)p(Xθ)p(θ)p(Xθ)p(θ)其中, p ( θ ∣ X ) p(\theta|X) p(θX)为后验概率,表示给定一组数据,参数出现的概率值。 p ( X ∣ θ ) p(X|\theta) p(Xθ)为似然,表示给定参数,数据出现的概率值。 p ( θ ) p(\theta) p(θ)为先验概率,表示参数出现的分布。


先验概率,似然,后验概率的具体含义是根据贝叶斯公式灵活变动的。


由于 X X X已经给定,因此, p ( X ) p(X) p(X)可以认为从一个变化的概率值收敛到一个常数值。因此有上面式子的后验概率正比于似然×先验概率。

此时如果再加上一个假设,我们假设参数的分布是一个均匀分布,对于均匀分布,此时参数的取值,只要在取值范围内,概率都是一样的,可以进一步化简: p ( θ ∣ X ) ∝ p ( X ∣ θ ) p(\theta|X)\propto p(X|\theta) p(θX)p(Xθ)此时,我们可以发现,如果要获得最符合 X X X θ \theta θ(给定 X X X,获取出现概率最大的那个参数 θ \theta θ),其实就是最大化似然 p ( X ∣ θ ) p(X|\theta) p(Xθ)

考虑到 X = { x 0 , . . . x n } X=\left\{x_{0},...x_{n}\right\} X={x0,...xn}的样本的出现是独立同分布的,因此有: θ ^ = a r g m a x   p ( X ∣ θ ) = a r g m a x ∏ i n p ( x i ∣ θ ) = a r g m a x   l o g ∏ i n p ( x i ∣ θ ) = a r g m a x ∑ i n l o g ( p ( x i ∣ θ ) ) \widehat{\theta}=argmax\thinspace p(X|\theta)=argmax\prod_{i}^{n}p(x_{i}|\theta)\\=argmax\thinspace log\prod_{i}^{n}p(x_{i}|\theta)=argmax\sum_{i}^{n}log(p(x_{i}|\theta)) θ =argmaxp(Xθ)=argmaxinp(xiθ)=argmaxloginp(xiθ)=argmaxinlog(p(xiθ))以具体分布为例,假设已经知道分布是高斯分布,则有: θ = { μ , σ }   p ( x i ∣ μ , σ ) = 1 2 π σ 2 e ( − ( x i − μ ) 2 σ 2 ) \theta=\left\{\mu,\sigma\right\}\thinspace p(x_{i}|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{(-\frac{(x_{i}-\mu)^{2}}{\sigma^{2}})} θ={μ,σ}p(xiμ,σ)=2πσ2 1e(σ2(xiμ)2) p ( x i ∣ μ , σ ) p(x_{i}|\mu,\sigma) p(xiμ,σ)代入 ∑ i n l o g ( p ( x i ∣ θ ) ) \sum_{i}^{n}log(p(x_{i}|\theta)) inlog(p(xiθ)),通过计算极值(求偏导数),我们可以找到最大似然对应的参数 θ ^ \widehat{\theta} θ

结合到有监督学习,此时的数据变为 { ( x 0 , y 0 ) , . . . ( x n , y n ) } \left\{(x_{0},y_{0}),...(x_{n},y_{n})\right\} {(x0,y0),...(xn,yn)} y y y x x x的标签。样本的概率分布 p ( ( x i , y i ) ∣ θ ) p((x_{i},y_{i})|\theta) p((xi,yi)θ)不知道是正态分布还是任何分布,但可以用深度网络来计算概率,深度网络的参数依然假设服从均匀分布,因此我们可以用最大似然估计参数,优化方法可以使用SGD等。

熵,交叉熵,KL散度

首先了解信息量,对于一个事件,其信息量有三个特征:

  • 小概率事件,具有更大的信息量;
  • 大概率事件,具有更少的信息量:
  • 对于独立事件,互相的信息量可以相加;

根据这三个特征,事件 x x x的信息量被定义为: I ( x ) = l o g ( 1 p ( x ) ) = − l o g ( p ( x ) ) I(x)=log(\frac{1}{p(x)})=-log(p(x)) I(x)=log(p(x)1)=log(p(x))建立在信息量的基础上,有熵(香农熵)的定义(信息量是描述事件的,熵是描述概率分布的):

  • 一个概率分布中,所包含的平均信息量: H ( p ) = ∑ p i I i p = ∑ p i l o g ( 1 p i ) = − ∑ p i l o g ( p i ) H(p)=\sum p_{i}I_{i}^{p}=\sum p_{i}log(\frac{1}{p_{i}})=-\sum p_{i}log(p_{i}) H(p)=piIip=pilog(pi1)=pilog(pi)熵是用来描述一个概率分布不确定性的方法。

可以发现,如果概率密度函数比较均匀(这会导致样本出现更加随机,比如硬币正面概率0.5,则出现正面或者反面的概率,相比0.8概率正面的情况更随机)此时熵的值更大。

如果概率密度函数更聚拢,则熵的值更小。

思考一个问题,硬币出现正面的ground truth概率为 p ( h ) = 0.5 p(h)=0.5 p(h)=0.5,则出现反面的概率为 p ( t ) = 0.5 p(t)=0.5 p(t)=0.5,但是如果人类一开始不知道硬币是这样的,我们通过统计实验估计出正面出现频率为 q ( h ) = 0.2 q(h)=0.2 q(h)=0.2,反面频率为 q ( t ) = 0.8 q(t)=0.8 q(t)=0.8。其中, q q q代表我们估计的概率分布。

下面引入交叉熵的定义:假设估计出的概率分布 q q q,对于真实的概率分布 p p p的平均信息量。

交叉熵表示为: H ( p , q ) = ∑ p i I i q = ∑ p i l o g ( 1 q i ) = − ∑ p i l o g ( q i ) H(p,q)=\sum p_{i}I_{i}^{q}=\sum p_{i}log(\frac{1}{q_{i}})=-\sum p_{i}log(q_{i}) H(p,q)=piIiq=pilog(qi1)=pilog(qi)可以理解为,最小化交叉熵,也就是将估计的概率分布调整拟合到ground truth的概率分布。

进一步,过渡到KL散度,这是一种用于量化衡量两个概率分布区别的方法。KL散度等于交叉熵减去熵: D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ p i I i q − ∑ p i I i p = ∑ p i l o g ( p i q i ) D(p||q)=H(p,q)-H(p)=\sum p_{i}I_{i}^{q}-\sum p_{i}I_{i}^{p}=\sum p_{i}log(\frac{p_{i}}{q_{i}}) D(p∣∣q)=H(p,q)H(p)=piIiqpiIip=pilog(qipi)注意,KL散度的值大于等于零,并且: D ( p ∣ ∣ q ) ≠ D ( q ∣ ∣ p ) D(p||q)\neq D(q||p) D(p∣∣q)=D(q∣∣p)因此,KL散度不能作为一个距离度量指标。

另外: ∇ θ D ( p ∣ ∣ q θ ) = ∇ θ H ( p , q θ ) − ∇ θ H ( p ) = ∇ θ H ( p , q θ ) \nabla_{\theta}D(p||q_{\theta})=\nabla_{\theta}H(p,q_{\theta})-\nabla_{\theta}H(p)=\nabla_{\theta}H(p,q_{\theta}) θD(p∣∣qθ)=θH(p,qθ)θH(p)=θH(p,qθ)因此,最小化KL散度等价于最小化交叉熵。

变分推理

首先认识隐变量图模型,隐变量代表了被观测变量的一些属性,比如下图,被观测变量是一张猫的图像,隐变量为类别的one-hot编码。
fig2

隐变量和被观测变量组成了隐变量图模型。
fig3
对于变分推理,首先看推理部分,一般来说,我们希望通过观测数据获得数据的知识,即:从被观测变量推理无法观测到的隐变量。从概率的角度有: x ∼ p ( x )   z ∼ p ( z ∣ x ) x\sim p(x)\thinspace z\sim p(z|x) xp(x)zp(zx)在贝叶斯公式中, p ( z ∣ x ) p(z|x) p(zx)可以理解为后验概率(隐变量在给定观测变量下出现的概率): p ( z ∣ x ) = p ( x ∣ z ) p ( z ) p ( x ) = p ( x ∣ z ) p ( z ) ∫ z p ( x , z ) d z p(z|x)=\frac{p(x|z)p(z)}{p(x)}=\frac{p(x|z)p(z)}{\int_{z}p(x,z)dz} p(zx)=p(x)p(xz)p(z)=zp(x,z)dzp(xz)p(z)通常,边缘分布 p ( x ) = ∫ z p ( x , z ) d z p(x)=\int_{z}p(x,z)dz p(x)=zp(x,z)dz是难以计算的(详细理解参考下面的example 1),因此,后验分布也是难以计算的。


p ( x ) p(x) p(x)最大似然估计中的 p ( X ) p(X) p(X)是不同的, p ( X ) p(X) p(X)是整体samples出现的概率,由于数据 X X X已经是给定的,所以 p ( X ) p(X) p(X)是一个常数。

p ( x ) p(x) p(x)描述的是具体sample的概率,不同的 x x x值对应着不同的 p ( x ) p(x) p(x)值,并且,我们不能武断地假设成样本服从某个已知的分布,再利用该分布的概率密度函数计算概率。


为了解决这个问题,我们使用一个可以参数化的已知概率分布 q ( z ) q(z) q(z)近似真实的后验分布 p ( z ∣ x ) p(z|x) p(zx)这个近似的过程称之为变分
fig4
使用近似的概率分布,尝试在给定被观测变量情况下,估计隐变量概率分布的过程称为变分推理。如果我们对隐变量进行采样,并且在给定隐变量的情况下,使用似然对被观测变量进行采样,就称为生成过程

example 1:边缘分布难以计算

变分推理的描述依然抽象,下面以具体例子来理解。

假设隐变量服从指数分布: z ∼ p ( z ) = e − z I ( z ≥ 0 ) z\sim p(z)=e^{-z}I(z\geq 0) zp(z)=ezI(z0)其中, I ( ⋅ ) I(\cdot) I()为指示函数(或者说阶跃函数)。

假设被观测变量服从高斯分布: x ∼ p ( x ∣ z ) = N ( x ∣ μ = z , σ = 1 ) = 1 2 π e ( − 1 2 ( x − z ) 2 ) x\sim p(x|z)=N(x|\mu=z,\sigma=1)=\frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(x-z)^{2})} xp(xz)=N(xμ=z,σ=1)=2π 1e(21(xz)2)在这样的假设下,联合分布为: p ( x , z ) = p ( x ∣ z ) p ( z ) = 1 2 π e ( − 1 2 ( x − z ) 2 ) e − z I ( z ≥ 0 ) p(x,z)=p(x|z)p(z)\\=\frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(x-z)^{2})}e^{-z}I(z\geq 0) p(x,z)=p(xz)p(z)=2π 1e(21(xz)2)ezI(z0)因此边缘分布为: p ( x ) = ∫ p ( x , z ) d z = ∫ 0 ∞ e − z 1 2 π e ( − 1 2 ( x − z ) 2 ) d z p(x)=\int p(x,z)dz=\int_{0}^{\infty}e^{-z}\frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(x-z)^{2})}dz p(x)=p(x,z)dz=0ez2π 1e(21(xz)2)dz这种情况下,边缘分布是很难甚至没法计算的,因为 z z z是连续空间,积分难以找到形式解析解。

example 2:后验概率正比于联合分布

由于被观测的数据 x x x给定,此时 p ( x ) p(x) p(x)是一个具体的数值(常数),根据贝叶斯公式有: p ( z ∣ x ) = p ( x , z ) p ( x ) ∝ p ( x , z ) = p ( x ∣ z ) p ( z ) = 1 2 π e ( − 1 2 ( x − z ) 2 ) e − z I ( z ≥ 0 ) p(z|x)=\frac{p(x,z)}{p(x)}\propto p(x,z)=p(x|z)p(z)=\frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(x-z)^{2})}e^{-z}I(z\geq 0) p(zx)=p(x)p(x,z)p(x,z)=p(xz)p(z)=2π 1e(21(xz)2)ezI(z0)化简后有以下正比关系: p ( z ∣ x ) ∝ 1 2 π e ( − 1 2 ( z − ( x − z ) ) 2 ) I ( z ≥ 0 ) p(z|x)\propto\frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(z-(x-z))^{2})}I(z\geq 0) p(zx)2π 1e(21(z(xz))2)I(z0)我们可以从下图得到验证:
fig5

  • 当我们分别令 x = 1.5 , 0 x=1.5,0 x=1.5,0代入 1 2 π e ( − 1 2 ( z − ( x − z ) ) 2 ) I ( z ≥ 0 ) \frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(z-(x-z))^{2})}I(z\geq 0) 2π 1e(21(z(xz))2)I(z0)得到蓝色的联合概率分布,红色曲线为数值计算统计出的真实后验概率分布。可以发现两者确实成正比。

我们发现后验概率正比于联合分布,但是 p ( x ) p(x) p(x)虽然是常数,但 x x x不同,常数的值也不同,因此,不能简单的用联合分布去表示后验概率。

在比较概率时,我们不能比较联合分布,应该比较正则化的后验概率分布,图像分类就是比较后验概率的例子。

使用简单的分布近似复杂的后验概率分布

我们使用KL散度衡量两个分布的差距: D ( q ∣ ∣ p ) = H ( q , p ) − H ( q ) = ∫ q ( x ) l o g q ( x ) p ( x ) d x = E x ∼ q [ l o g   q ( x ) − l o g   p ( x ) ] D(q||p)=H(q,p)-H(q)=\int q(x)log\frac{q(x)}{p(x)}dx\\=E_{x\sim q}[log\thinspace q(x)-log\thinspace p(x)] D(q∣∣p)=H(q,p)H(q)=q(x)logp(x)q(x)dx=Exq[logq(x)logp(x)]现在我们有一个直观的想法,使用近似分布 q θ ( z ) q_{\theta}(z) qθ(z)近似到 p ( z ∣ x ) p(z|x) p(zx),即: D ( q θ ( z ) ∣ ∣ p ( z ∣ x ) ) = E z ∼ q [ l o g   q θ ( z ) − l o g   p ( z ∣ x ) ] = E z ∼ q [ l o g   q θ ( z ) − l o g   p ( z , x ) p ( x ) ] = E z ∼ q [ l o g   q θ ( z ) − l o g   p ( z , x ) ] + l o g   p ( x ) D(q_{\theta}(z)||p(z|x))=E_{z\sim q}[log\thinspace q_{\theta}(z)-log\thinspace p(z|x)]\\=E_{z\sim q}[log\thinspace q_{\theta}(z)-log\thinspace \frac{p(z,x)}{p(x)}]\\=E_{z\sim q}[log\thinspace q_{\theta}(z)-log\thinspace p(z,x)]+log\thinspace p(x) D(qθ(z)∣∣p(zx))=Ezq[logqθ(z)logp(zx)]=Ezq[logqθ(z)logp(x)p(z,x)]=Ezq[logqθ(z)logp(z,x)]+logp(x)上面式子可以改为: l o g   p ( x ) = E z ∼ q [ l o g   p ( z , x ) − l o g   q θ ( z ) ] + D ( q θ ( z ) ∣ ∣ p ( z ∣ x ) ) log\thinspace p(x)=E_{z\sim q}[log\thinspace p(z,x)-log\thinspace q_{\theta}(z)]+D(q_{\theta}(z)||p(z|x)) logp(x)=Ezq[logp(z,x)logqθ(z)]+D(qθ(z)∣∣p(zx))由于KL散度大于等于0,因此有: l o g   p ( x ) ≥ E z ∼ q [ l o g   p ( z , x ) − l o g   q θ ( z ) ] log\thinspace p(x)\geq E_{z\sim q}[log\thinspace p(z,x)-log\thinspace q_{\theta}(z)] logp(x)Ezq[logp(z,x)logqθ(z)]并且根据等式有,最小化KL散度,等价于最大化 E z ∼ q [ l o g   p ( z , x ) − l o g   q θ ( z ) ] E_{z\sim q}[log\thinspace p(z,x)-log\thinspace q_{\theta}(z)] Ezq[logp(z,x)logqθ(z)](ELBO,evidence lower bound)。

实例理解

以实际例子理解,假设隐变量服从指数分布: z ∼ p ( z ) = e − z I ( z ≥ 0 ) z\sim p(z)=e^{-z}I(z\geq 0) zp(z)=ezI(z0)其中, I ( ⋅ ) I(\cdot) I()为指示函数(或者说阶跃函数)。

假设我们有近似分布 q θ ( z ) q_{\theta}(z) qθ(z) q θ ( z ) = θ e − θ z I ( z ≥ 0 ) q_{\theta}(z)=\theta e^{-\theta z}I(z\geq 0) qθ(z)=θeθzI(z0)假设被观测变量服从高斯分布: x ∼ p ( x ∣ z ) = N ( x ∣ μ = z , σ = 1 ) = 1 2 π e ( − 1 2 ( x − z ) 2 ) x\sim p(x|z)=N(x|\mu=z,\sigma=1)=\frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(x-z)^{2})} xp(xz)=N(xμ=z,σ=1)=2π 1e(21(xz)2)则ELBO为: L = E z ∼ q [ l o g   p ( z , x ) − l o g   q θ ( z ) ] = E z ∼ q [ l o g   p ( x ∣ z ) p ( z ) − l o g   q θ ( z ) ] L=E_{z\sim q}[log\thinspace p(z,x)-log\thinspace q_{\theta}(z)]=E_{z\sim q}[log\thinspace p(x|z)p(z)-log\thinspace q_{\theta}(z)] L=Ezq[logp(z,x)logqθ(z)]=Ezq[logp(xz)p(z)logqθ(z)] x = 1.5 x=1.5 x=1.5为例,通过计算偏导数 ∂ L ∂ θ = 0 \frac{\partial L}{\partial \theta}=0 θL=0,得到 θ = 1.186 \theta=1.186 θ=1.186。因此,我们得到了与真实后验概率近似的近似概率(基底形式为指数函数)。下图可以作为验证:
fig6

  • x = 1.5 x=1.5 x=1.5为例,代入 1 2 π e ( − 1 2 ( z − ( x − z ) ) 2 ) I ( z ≥ 0 ) \frac{1}{\sqrt{2\pi}}e^{(-\frac{1}{2}(z-(x-z))^{2})}I(z\geq 0) 2π 1e(21(z(xz))2)I(z0)得到蓝色的联合概率分布,红色曲线为数值计算统计出的真实后验概率分布。绿色曲线为对应的近似分布。可以看到确实有拟合的现象。

在VAE中,编码器部分相当于计算后验分布 p ( z ∣ x ) p(z|x) p(zx),解码器部分相当于计算 p ( x ∣ z ) p(x|z) p(xz),对于VAE,我们不一定使用 q ( z ) q(z) q(z)是正态分布的假设,而是假设 p ( z ∣ x ) p(z|x) p(zx)是正态分布:

  • 即VAE为每个样本构造正态分布,然后采样实现重建;
  • 给定一个样本 x x x,假设存在专属于 x x x的正态分布 p ( z ∣ x ) p(z|x) p(zx)为了使模型具有正确的生成能力,我们通常要求其接近标准正态分布,即 x x x经过编码, z z z的分布接近零均值和单位方差,但依然有专属于该样本的 μ \mu μ σ \sigma σ
  • 因此,在这里, q ( z ) q(z) q(z)就被设置为标准正态分布。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值