概
解耦表示学习(disentangled representations)通常假设图片有独立的几个因素决定, 即:
p
(
x
∣
z
)
,
p
(
z
)
=
∏
i
=
1
d
p
(
z
i
)
.
p(x|z) , p(z) = \prod_{i=1}^d p(z_i).
p(x∣z),p(z)=i=1∏dp(zi).
本文对这个假设提出质疑.
主要内容
VAE 首先通过encoder 将
x
x
x映射为隐变量
z
z
z, 再通过隐变量
z
z
z恢复出
x
x
x, 其中赋予先验
p
(
z
)
p(z)
p(z)常常为标准正态分布, 并且最大化ELBO的同时要最小化:
K
L
(
q
ϕ
(
z
∣
x
)
∥
p
(
z
)
)
,
\mathrm{KL} (q_{\phi}(z|x) \| p(z)),
KL(qϕ(z∣x)∥p(z)),
这表示我们希望所提取的隐变量
z
z
z的各分量是相互独立. 形象地说, 我们改变
z
i
z_i
zi就有图片相应的元素发生改变而其它元素不变. 作者认为这种假设简单而美好, 但是在无监督的模式下, 该假设是不可能成立的.
实际上, 假设先验分布的确如此
p
(
z
)
=
∏
i
d
p
(
z
i
)
p(z) = \prod_{i}^d p(z_i)
p(z)=∏idp(zi), 则一定存在一个双射
f
:
s
u
p
p
(
z
)
→
s
u
p
p
(
z
)
f: \mathrm{supp}(z) \rightarrow \mathrm{supp}(z)
f:supp(z)→supp(z), 是的
∂
f
i
(
z
)
∂
z
j
≠
0
,
a
.
e
.
,
∀
i
,
j
\frac{\partial{f_i(z)}}{\partial z_j}\not = 0, \mathrm{a.e.}, \forall i, j
∂zj∂fi(z)=0,a.e.,∀i,j, 且
z
,
f
(
z
)
z, f(z)
z,f(z)同分布, 即
P
(
z
≤
u
)
=
P
(
f
(
z
)
≤
u
)
,
P(z \le u) = P(f(z) \le u),
P(z≤u)=P(f(z)≤u),
又因为
f
f
f是一个双射, 故
p
(
x
∣
z
)
=
p
(
x
∣
f
(
z
)
)
,
p(x|z) = p(x|f(z)),
p(x∣z)=p(x∣f(z)),
进一步有
P
(
x
)
=
∫
p
(
x
∣
z
)
p
(
z
)
d
z
=
∫
p
(
x
∣
f
(
z
)
)
p
(
f
(
z
)
)
d
f
(
z
)
.
P(x) = \int p(x|z)p(z) \mathrm{d}z = \int p(x|f(z))p(f(z)) \mathrm{d}f(z).
P(x)=∫p(x∣z)p(z)dz=∫p(x∣f(z))p(f(z))df(z).
故边缘分布是一致的, 这意味着, 我们除了
p
(
z
)
p(z)
p(z), 还有
p
(
f
(
z
)
)
p(f(z))
p(f(z))同样可以到处我们的观测数据
P
(
x
)
P(x)
P(x), 反之, 没有额外的信息(即在无监督条件下)我们无法确定所拟合的分布是
p
(
z
)
p(z)
p(z)还是
p
(
f
(
z
)
)
p(f(z))
p(f(z)).
倘若是后者, 我们改变隐变量的某一个维度
f
i
f_i
fi, 由于偏导数均不为0, 则几乎所有的
z
z
z都改变了, 也就是真正的控制元素都会发生改变, 这和我们的解耦表示学习的初衷产生了背离. 所以结论就是在无监督条件下, 想要解耦表示是几乎不可能的.
注: 上面的
f
f
f的构造不是唯一的;
注: 上面的证明用到了和顺序统计量一样的有趣的玩意.
作者做了很多很多实验, 个人觉得最能体现这一点就是, 所有这些强调解耦表示的VAE都对参数初始化和超参数选择异常敏感.