互信息的变分下界。论文“The IM Algorithm : A variational approach to Information Maximization”解读

最新推荐文章于 2024-01-04 00:02:40 发布

weixin_37958272

最新推荐文章于 2024-01-04 00:02:40 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/weixin_37958272/article/details/116702480

版权

The IM Algorithm : A variational approach to Information Maximization

当然也可以考虑其他众所周知的MI下限[6]，将来对这些不同的方法进行比较会很有趣。然而，我们目前的经验表明，上面考虑的界限在计算上特别方便。由于该约束是基于KL散度的，它相当于用q(x|y)对p(x|y)进行 moment matching approximation。这一事实对解码非常有利，因为模式匹配方法，如均值场理论，通常会被困在许多次优的局部最小值中。更成功的解码算法近似于后验平均值[10]。

The IM algorithm

为了使MI相对于p(y|x, θ)的任何参数θ最大化，我们的目标是推高下限（3）。首先，我们需要选择一类变量分布q(x|y)∈Q，对其来说，能量项是可控的。然后，对于给定的p(x)，最大化 $\widetilde I(X, Y )$ 的自然递归程序是

在这里插入图片描述
这些步骤反复进行，直到收敛。这个过程类似于(G)EM算法，它使likelihood的下限最大化[9]。区别仅仅在于 "能量 "项的形式。

请注意，如果|y|很大，后验p(x|y)通常会在其模式周围出现急剧的峰值。这将促使人们对后验进行简单的近似q(x|y)，显著降低优化的计算复杂性。在实值x的情况下，在 large |y| limit中的一个自然选择是使用高斯函数( a natural choice in the large |y| limit is to use a Gaussian. )。那么，一个简单的近似方法就是使用拉普拉斯近似法对p(x|y)进行协方差元素的计算 $[\Sigma^{-1}]_{ij}=\frac{\partial^2log\ p(x|y)}{\partial x_i\partial x_j}$ 。Inserted in the bound，这将给出一种形式，让人想起费舍尔信息[5]。这里给出的界限可以说比[5]中所述更为普遍和适当，因为，虽然它也倾向于在大量响应的限制下MI的精确值，但它是任何响应维度的原则性约束。

Relation to Conditional Likelihood
考虑一个自动编码器 $x→y→\widetilde x$ ，设想我们希望最大限度地提高重建的 $\widetilde x$ 与x处于相同s状态的概率。
在这里插入图片描述

因此，最大化 $\widetilde I(X, Y )$ (对于固定的p(x))与最大化正确重建的概率下限是一样的。这是下限的一个令人放心的属性。尽管我们没有直接最大化MI，但我们也间接地最大化了正确重建的概率–一种自动编码器的形式。

Generalisation to Mixture Decoders
对Jensen不等式的一个直接应用可以得到更一般的结果:
在这里插入图片描述
其中q(x|y, z)和q(z)是变分分布。其目的是选择q(x|y, z)，以使该约束可被实际计算。该结构如图（1）所示。

weixin_37958272

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
互信息的变分下界。论文“The IM Algorithm : A variational approach to Information Maximization”解读

On Variational Bounds of Mutual Information估算和优化相互信息（MI）是机器学习中许多问题的核心；然而，在高维度上约束MI是一个挑战。为了建立可操作和可扩展的目标，最近的工作转向了以神经网络为参数的变分界限，但这些界限之间的关系和权衡仍不清楚。在这项工作中，我们将这些最新的发展统一到一个框架中。我们发现，当MI较大时，现有的变异下限会下降，表现为高偏差bias或高方差。为了解决这个问题，我们引入了一个连续的下界，它包含了以前的下界，并灵活地权衡了偏差和方差。在高
复制链接

扫一扫