2020-4-15 深度学习笔记19 - 近似推断 3 (变分推断和变分学习-离散型/连续型变量,变分法,学习和推断之间的相互作用)

第十九章 近似推断 Approximate Inference

中文
英文

2020-4-13 深度学习笔记19 - 近似推断 1 (把推断视作优化问题-证据下界,期望最大化EM-最大化下界 )
2020-4-14 深度学习笔记19 - 近似推断 2 (最大后验推断MAP和稀疏编码 )

变分推断和变分学习Variational Inference and Learning

关于变分推断可以参考https://zhuanlan.zhihu.com/p/48713461

变分学习的核心思想就是在一个关于 q q q的有约束的分布族上最大化 L L L。 选择这个分布族时应该考虑到计算 E q log ⁡ p ( h , v ) E_q \log p(h,v) Eqlogp(h,v)的难易度。

一种常用的变分学习的方法是加入一些限制使得 q q q是一个因子分布:
q ( h ∣ v ) = ∏ i q ( h i ∣ v ) q(h∣v)=\prod_iq(h_i∣v) q(hv)=iq(hiv)
这被称为均值场方法

变分方法的优点是我们不需要为分布 q q q设定一个特定的参数化形式。我们设定它如何分解,之后通过解决优化问题来找出在这些分解限制下最优的概率分布。

  • 离散型潜变量:使用传统的优化技巧来优化描述分布 q q q的有限个变量。
  • 连续型潜变量:使用一个被称为变分法的数学分支工具来解决函数空间上的优化问题。 然后决定哪一个函数来表示分布 q q q

变分法是”变分学习”或者”变分推断”这些名字的来因,尽管当潜变量是离散时变分法并没有用武之地。 当遇到连续型潜变量时,变分法不需要过多地人工选择模型,是一种很有用的工具。 我们只需要设定分布 q q q如何分解,而不需要去猜测一个特定的能够精确近似原后验分布的分布 q q q

在学习算法中使用近似推断会影响学习的过程,反过来学习过程也会影响推断算法的准确性。
训练算法倾向于朝使得近似推断算法中的近似假设变得更加真实的方向来适应模型。

因为 L ( v , θ , q ) L(v,\theta,q) L(v,θ,q)被定义成 log ⁡ p ( v ; θ ) − D KL ( q ( h ∣ v ) ∥ p ( h ∣ v ; θ ) ) \log p(v;\theta) - D_{\text{KL}} (q(h\mid v) \Vert p(h\mid v;\theta) ) logp(v;θ)DKL(q(hv)p(hv;θ)),我们可以认为关于 q q q最大化 L L L的问题等价于(关于 q q q)最小化 D KL ( q ( h ∣ v ) ∥ p ( h ∣ v ) ) D_{\text{KL}}(q(h\mid v)\Vert p(h\mid v)) D

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值