最近读了InfoGAN的论文,其中公式5我一直不是很理解,但在网上搜索也没搜到类似的问题。现记录一下个人对公式5的理解,如有错误恳请指正。
InfoGAN: https://arxiv.org/pdf/1606.03657.pdf
论文在公式4中给出了
I(c;G(x,z))
I
(
c
;
G
(
x
,
z
)
)
的下界
但是该下界仍然涉及到后验概率 P(c′|x) P ( c ′ | x ) ,这里的x指的就是生成器 G G 生成的图片而则是Latent code。这个概率是无法直接估计的,因此文章中使用引理5.1对该下界进行了一个变换。
引理5.1:
For random variables X, Y and function f(x, y) under suitable regularity conditions:
该定理证明见原论文附录。
下面给出公式5的个人理解, 关键在于如何理解
G(z,c)
G
(
z
,
c
)
, 若
G(z,c)=∫cP(c)PG(x|c)
G
(
z
,
c
)
=
∫
c
P
(
c
)
P
G
(
x
|
c
)
, 则
这里第二步到第三部的变换使用了引理5.1。
这里的 PG(x|c) P G ( x | c ) 对应的是原论文中的式5第一行的G(z, c), 实际上这里的G(z, c)已经是一个条件概率了(与论文中式4(本文中的第一个公式中)的 G(z,c) G ( z , c ) 其实并不是同一个东西),代表在给定c的条件下生成器产生图片x的概率。因此接下来可以用蒙特卡洛来对 L1(G,Q) L 1 ( G , Q ) 进行估计。