MINE:Mutual Information Neural Estimation

Mutual Information Neural Estimation

摘要

文章认为高维连续随机变量之间的互信息可以通过在神经网络上梯度下降优化得到。
文中提出了互信息估计器(Mutual Information Neural Estimator),它在维度和
样本大小上都是可伸缩的,可以通过反向传播训练的,并且具有很强的一致性
文章提出了一些可以使用MINE来最小化或最大化互信息的
应用。作者应用MINE来改进对抗训练的生成模型。还使用MINE来实现信息瓶颈,将其应用到监督分类中:结果表明,在这些设置中,灵活性和性能有很大的改善。

背景知识补充1

与相关系数相比,互信息可以捕获非线性关系
H ( X ) = − ∑ x p ( x ) l o g ( p ( x ) ) = − E x [ l o g ( p ( x ) ) ] H ( X ∣ Z ) = − ∑ z p ( z ) ∑ x p ( x ∣ z ) l o g ( p ( x ∣ z ) ) I ( X , Z ) = ∑ x ∑ z p ( x , z ) l o g p ( x , z ) p ( x ) p ( z ) = D K L ( p ( x , z ) ∣ ∣ p ( x ) p ( z ) ) = H ( X ) − H ( X ∣ Z ) = H ( Z ) − H ( Z ∣ X ) \begin{align} H(X) &= -\sum_x p(x)log(p(x))\\ &= -\mathbb{E}_x[log(p(x))] \notag\\ H(X|Z) &= -\sum_z p(z)\sum_x p(x|z)log(p(x|z))\\ I(X, Z) &= \sum_x\sum_z p(x, z)log\frac{p(x, z)}{p(x)p(z)}\\ &= D_{KL}(p(x, z)||p(x)p(z)) \\ &= H(X)-H(X|Z)\\ &= H(Z)-H(Z|X) \end{align} H(X)H(XZ)I(X,Z)=xp(x)log(p(x))=Ex[log(p(x))]=zp(z)xp(xz)log(p(xz))=xzp(x,z)logp(x)p(z)p(x,z)=DKL(p(x,z)∣∣p(x)p(z))=H(X)H(XZ)=H(Z)H(ZX)
H H H是信息熵, I I I是互信息。

KL散度的对偶(Dual)表示

Donsker-Varadhan represention

  • 理论1(Q,P指分布,dQ,dP密度函数):
    D K L ( P ∣ ∣ Q ) = sup ⁡ T : Ω → R E P [ T ] − l o g ( E Q [ e T ] ) D_{KL}(P||Q)=\sup\limits_{T:\Omega\rightarrow R}\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^T]) DKL(P∣∣Q)=T:ΩRsupEP[T]log(EQ[eT])
    其中 T T T表示所有任意函数。
  • 证明理论1:令 d G = 1 Z e T d Q dG=\frac{1}{Z}e^TdQ dG=Z1eTdQ,其中 Z = E Q [ e T ] Z=\mathbb{E}_Q[e^T] Z=EQ[eT].
    d G d Q = 1 Z e T E P [ E Q ] = E Q E P [ l o g d G d Q ] = E P [ T ] − l o g ( Z ) Δ : = D K L ( P ∣ ∣ Q ) − ( E P [ T ] − l o g ( Z ) ) = E P [ l o g d P d Q − l o g d G d Q ] = E P [ l o g d P d G ] = D K L ( P ∣ ∣ G ) ≥ 0 D K L ( P ∣ ∣ Q ) ≥ E P [ T ] − l o g ( E Q [ e T ] ) \begin{align} \frac{dG}{dQ}&=\frac{1}{Z}e^T\\ \mathbb{E}_P[\mathbb{E}_Q]&=\mathbb{E}_Q\\ \mathbb{E}_P[log\frac{dG}{dQ}]&=\mathbb{E}_P[T]-log(Z)\\ \Delta :&=D_{KL}(P||Q)-(\mathbb{E}_P[T]-log(Z))\\ &= \mathbb{E}_P\left[log\frac{dP}{dQ}-log\frac{dG}{dQ}\right]\\ &= \mathbb{E}_P\left[log \frac{dP}{dG}\right]=D_{KL}(P||G)\ge 0\\ D_{KL}(P||Q)&\ge \mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^T]) \end{align} dQdGEP[EQ]EP[logdQdG]Δ:DKL(P∣∣Q)=Z1eT=EQ=EP[T]log(Z)=DKL(P∣∣Q)(EP[T]log(Z))=EP[logdQdPlogdQdG]=EP[logdGdP]=DKL(P∣∣G)0EP[T]log(EQ[eT])
    可以看到,当 G = = P G==P G==P时,取等号,即边界是贴近的, T ∗ = l o g d P d Q + C T^*=log\frac{dP}{dQ}+C T=logdQdP+C

f f f-divergence representation

D K L ( P ∣ ∣ Q ) ≥ sup ⁡ T ∈ F E P [ T ] − l o g ( E Q [ e T − 1 ] ) D_{KL}(P||Q)\ge\sup\limits_{T\in \mathcal{F}}\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^{T-1}]) DKL(P∣∣Q)TFsupEP[T]log(EQ[eT1])

尽管对于足够大的族 F \mathcal{F} F,两种表示都可以逼近散度,但是Donsker-Varadhan 界限更强。
E P [ T ] − l o g ( E Q [ e T ] ) ≥ E P [ T ] − l o g ( E Q [ e T − 1 ] ) \mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^{T}])\ge\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^{T-1}]) EP[T]log(EQ[eT])EP[T]log(EQ[eT1])

方法

使用神经网络参数化函数 T T T
I ( X , Z ) ≥ I Θ ( X , Z ) I Θ ( X , Z ) = sup ⁡ θ ∈ Θ E P X Z [ T θ ] − l o g ( E P X P Z [ e T θ ] ) I(X, Z)\ge I_\Theta(X, Z)\\ I_\Theta(X, Z)=\sup\limits_{\theta\in\Theta}\mathbb{E}_{P_{XZ}}{[T_\theta]}-log(\mathbb{E}_{P_{X}P_{Z}}[e^{T_\theta}]) I(X,Z)IΘ(X,Z)IΘ(X,Z)=θΘsupEPXZ[Tθ]log(EPXPZ[eTθ])
训练神经网络尽量增大 I Θ I_\Theta IΘ以逼近 I ( X , Z ) I(X, Z) I(X,Z)

定义MINE:

I ( X , Z ) ^ n = sup ⁡ θ ∈ Θ E P X Z n [ T θ ] − l o g ( E P X n P Z n [ e T θ ] ) \widehat{I(X,Z)}_n=\sup\limits_{\theta\in\Theta}\mathbb{E}_{P^n_{XZ}}{[T_\theta]}-log(\mathbb{E}_{P^n_{X}P^n_{Z}}[e^{T_\theta}]) I(X,Z) n=θΘsupEPXZn[Tθ]log(EPXnPZn[eTθ])
其中 P n P^n Pn表示独立同分布的n个样本的经验分布。

算法中提供了 MINE 实现的详细信息。类似的定义和算法也适用于 f − d i v e r g e n c e f-divergence fdivergence散度公式,称为 M I N E − f MINE-f MINEf。它通常会导致互信息的估计量更宽松。然而,在小批量设置中,MINE的SGD梯度是有偏差的,不过可以调小学习率来调节偏差。

在这里插入图片描述

定义强一致性

如果对任意 ϵ ≥ 0 \epsilon\ge 0 ϵ0,都存在一个正整数 N N N和一个网络,使得:
∀ n ≥ N , ∣ I ( X , Z ) − I ( X , Z ) ^ ∣ ≤ ϵ \forall n\ge N,\quad |I(X,Z)-\widehat{I(X,Z)}|\le \epsilon nN,I(X,Z)I(X,Z) ϵ

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值