第十二课.统计推断的基本思想

统计推断的根源

对于统计推断的根源,先回顾贝叶斯公式:
p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) p ( x ) p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)} p(θx)=p(x)p(xθ)p(θ)
其中, θ \theta θ是模型的参数(注意贝叶斯流派认为一切皆随机变量), p ( θ ) p(\theta) p(θ)是事先给定的参数的经验分布, p ( x ∣ θ ) p(x|\theta) p(xθ)是似然, p ( x ) p(x) p(x)是观测变量的概率,在某个给定的试验背景下,是一个常数,可以计算为:
p ( x ) = ∫ θ p ( x ∣ θ ) p ( θ ) d θ p(x)=\int_{\theta}p(x|\theta)p(\theta)d\theta p(x)=θp(xθ)p(θ)dθ
基于上述的贝叶斯公式,引出两个新概念:

  • 贝叶斯推断:利用贝叶斯公式计算后验概率 p ( θ ∣ x ) p(\theta|x) p(θx)
  • 贝叶斯决策:在已有 N N N个样本 X X X的基础上,计算出现新增样本 x ^ \widehat{x} x 的概率: p ( x ^ ∣ X ) p(\widehat{x}|X) p(x X),我们将模型参数 θ \theta θ作为变换的桥梁即有:
    p ( x ^ ∣ X ) = ∫ θ p ( x ^ , θ ∣ X ) d θ = ∫ θ p ( x ^ ∣ θ ) p ( θ ∣ X ) d θ p(\widehat{x}|X)=\int_{\theta}p(\widehat{x},\theta|X)d\theta=\int_{\theta}p(\widehat{x}|\theta)p(\theta|X)d\theta p(x X)=θp(x ,θX)dθ=θp(x θ)p(θX)dθ可以看出贝叶斯决策的关键,需要先获得后验分布 p ( θ ∣ X ) p(\theta|X) p(θX),再计算 p ( x ^ ∣ θ ) p(\widehat{x}|\theta) p(x θ)关于 p ( θ ∣ X ) p(\theta|X) p(θX)的期望。

因此,计算后验分布会是各种工作的重要环节,也就是推断(inference)的过程。

精确推断与近似推断

在一些简单的情况下,后验分布可以直接计算精确的解析解,称之为精确推断,但是这种方法对参与贝叶斯公式的分布要求严格,比如高斯分布,我们可以通过公式就得到结果高斯分布的均值与方差。

但实际情况往往复杂,没有办法直接计算后验分布的解析解,因此只能用近似的方法得到后验分布,即近似推断。近似推断又分为两大类:

  • 确定性近似:变分推断;
  • 随机近似:MCMC(Markov Chain Monte Carlo),在实际问题中,随机近似用途更广泛。

本篇先讨论变分推断,我们的目的是找到一个分布 Q ( θ ) Q(\theta) Q(θ)逼近一个没有办法找到解析解的后验分布 p ( θ ∣ X ) p(\theta|X) p(θX),变分推断之所以称为确定性近似,是因为虽然结果不精确,但依然可以拿到一个解析解的形式。

我们令 X X X是观测数据, θ \theta θ是参数,可以得到:
p ( X , θ ) = p ( X ) p ( θ ∣ X ) ⇒ p ( X ) = p ( X , θ ) p ( θ ∣ X ) ⇒ p(X,\theta)=p(X)p(\theta|X)\Rightarrow p(X)=\frac{p(X,\theta)}{p(\theta|X)}\Rightarrow p(X,θ)=p(X)p(θX)p(X)=p(θX)p(X,θ) l o g [ p ( X ) ] = l o g [ p ( X , θ ) ] − l o g [ p ( θ ∣ X ) ] log[p(X)]=log[p(X,\theta)]-log[p(\theta|X)] log[p(X)]=log[p(X,θ)]log[p(θX)]
我们引入 q ( θ ) q(\theta) q(θ)近似目标后验分布 p ( θ ∣ X ) p(\theta|X) p(θX)
l o g [ p ( X ) ] = ( l o g [ p ( X , θ ) ] − l o g [ q ( θ ) ] ) − ( l o g [ p ( θ ∣ X ) ] − l o g [ q ( θ ) ] ) log[p(X)]=(log[p(X,\theta)]-log[q(\theta)])-(log[p(\theta|X)]-log[q(\theta)]) log[p(X)]=(log[p(X,θ)]log[q(θ)])(log[p(θX)]log[q(θ)]) = l o g p ( X , θ ) q ( θ ) − l o g p ( θ ∣ X ) q ( θ ) =log\frac{p(X,\theta)}{q(\theta)}-log\frac{p(\theta|X)}{q(\theta)} =logq(θ)p(X,θ)logq(θ)p(θX)
我们现在得到一个等式:
l o g [ p ( X ) ] = l o g p ( X , θ ) q ( θ ) − l o g p ( θ ∣ X ) q ( θ ) log[p(X)]=log\frac{p(X,\theta)}{q(\theta)}-log\frac{p(\theta|X)}{q(\theta)} log[p(X)]=logq(θ)p(X,θ)logq(θ)p(θX)
其实对于这个式子,在EM算法中已经见过,所以在这里的处理方法类似,对左右两边同时乘以 q ( θ ) q(\theta) q(θ)并求积分:

  • 左边式子为:
    ∫ θ l o g [ p ( X ) ] q ( θ ) d θ = l o g [ p ( X ) ] ∫ θ p ( θ ) d θ = l o g [ p ( X ) ] \int_{\theta}log[p(X)]q(\theta)d\theta=log[p(X)]\int_{\theta}p(\theta)d\theta=log[p(X)] θlog[p(X)]q(θ)dθ=log[p(X)]θp(θ)dθ=log[p(X)]
  • 右边式子为:
    ∫ θ q ( θ ) l o g p ( X , θ ) q ( θ ) d θ − ∫ θ q ( θ ) l o g p ( θ ∣ X ) q ( θ ) d θ = ∫ θ q ( θ ) l o g p ( X , θ ) q ( θ ) d θ + ∫ θ q ( θ ) l o g q ( θ ) p ( θ ∣ X ) d θ \int_{\theta}q(\theta)log\frac{p(X,\theta)}{q(\theta)}d\theta-\int_{\theta}q(\theta)log\frac{p(\theta|X)}{q(\theta)}d\theta=\int_{\theta}q(\theta)log\frac{p(X,\theta)}{q(\theta)}d\theta+\int_{\theta}q(\theta)log\frac{q(\theta)}{p(\theta|X)}d\theta θq(θ)logq(θ)p(X,θ)dθθq(θ)logq(θ)p(θX)dθ=θq(θ)logq(θ)p(X,θ)dθ+θq(θ)logp(θX)q(θ)dθ

对于右边式子,注意两项,我们作以下标记:
L ( q ) = ∫ θ q ( θ ) l o g p ( X , θ ) q ( θ ) d θ L(q)=\int_{\theta}q(\theta)log\frac{p(X,\theta)}{q(\theta)}d\theta L(q)=θq(θ)logq(θ)p(X,θ)dθ K L ( q ∣ ∣ p ) = ∫ θ q ( θ ) l o g q ( θ ) p ( θ ∣ X ) d θ KL(q||p)=\int_{\theta}q(\theta)log\frac{q(\theta)}{p(\theta|X)}d\theta KL(qp)=θq(θ)logp(θX)q(θ)dθ
其中, K L ( q ∣ ∣ p ) KL(q||p) KL(qp)是KL散度的定义,描述了 q ( θ ) q(\theta) q(θ) p ( θ ∣ X ) p(\theta|X) p(θX)两个分布的距离,并且 K L ( q ∣ ∣ p ) ≥ 0 KL(q||p)\geq 0 KL(qp)0,因此有:
l o g [ p ( X ) ] = L ( q ) + K L ( q ∣ ∣ p ) log[p(X)]=L(q)+KL(q||p) log[p(X)]=L(q)+KL(qp)
对于 l o g [ p ( X ) ] log[p(X)] log[p(X)],可以视为与参数 θ \theta θ无关的量,当 X X X固定时, l o g [ p ( X ) ] log[p(X)] log[p(X)]的值也就固定,由于 K L ( q ∣ ∣ p ) ≥ 0 KL(q||p)\geq 0 KL(qp)0,因此 L ( q ) L(q) L(q)的取值上限就是 l o g [ p ( X ) ] log[p(X)] log[p(X)],于是我们让 L ( q ) L(q) L(q)取到最大,从而迫使 K L ( q ∣ ∣ p ) = 0 KL(q||p)=0 KL(qp)=0。当KL散度为0时,也就代表 q ( θ ) q(\theta) q(θ)近似等于 p ( θ ∣ X ) p(\theta|X) p(θX)

扩展:变分法和变分推断的关系

首先,我现在简要介绍变分,对于普通的函数 f ( x ) f(x) f(x),我们可以认为 f f f是一个关于 x x x的一个算子,其作用是将 x x x映射到 f ( x ) f(x) f(x)。那么类比这种模式,假设存在函数算子 F F F,它是关于 f ( x ) f(x) f(x)的函数算子,可以将 f ( x ) f(x) f(x)映射成 F ( f ( x ) ) F(f(x)) F(f(x))

而变分指的是泛函的变分,泛函就是上面提到的函数的函数,一般,泛函空间的自变量我们称为宗量(自变函数),当宗量变化了一点微小量而导致了泛函值变化了多少,这就是变分(这可以与微积分中的函数微分进行对比,只是自变量换成了宗量);

而回顾上面的变分推断,我们的目标是最大化 L ( q ) L(q) L(q),也就是要先找到 L ( q ) L(q) L(q)的极值,所以我要先针对泛函 L ( q ) L(q) L(q)计算它的变分,在微积分中可以理解为导数,我们在变分为0时,就找到了泛函的极值,也就是让泛函最优的宗量 q ( θ ) q(\theta) q(θ)这就是变分推断中变分的意义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值