Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

最新推荐文章于 2022-05-10 17:55:27 发布

MTandHJ

最新推荐文章于 2022-05-10 17:55:27 发布

阅读量164

点赞数

分类专栏： neural networks

本文链接：https://blog.csdn.net/MTandHJ/article/details/117200848

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

文章目录

- 概
- 主要内容

Locatello F., Bauer S., Lucic M., R"{a}tsch G., Gelly S. Sch"{o}lkopf and Bachem Olivier. Challenging common assumptions in the unsupervised learning of disentangled representations. In International Conference on Machine Leaning (ICML), 2018.

概

解耦表示学习(disentangled representations)通常假设图片有独立的几个因素决定, 即:
$\prod_{i=1}^d p(z_i).$
本文对这个假设提出质疑.

主要内容

VAE 首先通过encoder 将 $x$ 映射为隐变量 $z$ , 再通过隐变量 $z$ 恢复出 $x$ , 其中赋予先验 $p (z)$ 常常为标准正态分布, 并且最大化ELBO的同时要最小化:
$\mathrm{KL} (q_{\phi}(z|x) \| p(z)),$
这表示我们希望所提取的隐变量 $z$ 的各分量是相互独立. 形象地说, 我们改变 $z_i$ 就有图片相应的元素发生改变而其它元素不变. 作者认为这种假设简单而美好, 但是在无监督的模式下, 该假设是不可能成立的.

实际上, 假设先验分布的确如此 $\prod_{i}^d p(z_i)$ , 则一定存在一个双射 $\mathrm{supp}(z) \rightarrow \mathrm{supp}(z)$ , 是的 $\frac{\partial{f_i(z)}}{\partial z_j}\not = 0, \mathrm{a.e.}, \forall i, j$ , 且 $z, f (z)$ 同分布, 即
$\le u) = P(f(z) \le u),$
又因为 $f$ 是一个双射, 故
$p (x ∣ z) = p (x ∣ f (z)),$
进一步有
$\int p(x|z)p(z) \mathrm{d}z = \int p(x|f(z))p(f(z)) \mathrm{d}f(z).$
故边缘分布是一致的, 这意味着, 我们除了 $p (z)$ , 还有 $p (f (z))$ 同样可以到处我们的观测数据 $P (x)$ , 反之, 没有额外的信息(即在无监督条件下)我们无法确定所拟合的分布是 $p (z)$ 还是 $p (f (z))$ .
倘若是后者, 我们改变隐变量的某一个维度 $f_i$ , 由于偏导数均不为0, 则几乎所有的 $z$ 都改变了, 也就是真正的控制元素都会发生改变, 这和我们的解耦表示学习的初衷产生了背离. 所以结论就是在无监督条件下, 想要解耦表示是几乎不可能的.

注: 上面的 $f$ 的构造不是唯一的;
注: 上面的证明用到了和顺序统计量一样的有趣的玩意.

作者做了很多很多实验, 个人觉得最能体现这一点就是, 所有这些强调解耦表示的VAE都对参数初始化和超参数选择异常敏感.

MTandHJ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

文章目录概主要内容Locatello F., Bauer S., Lucic M., R"{a}tsch G., Gelly S. Sch"{o}lkopf and Bachem Olivier. Challenging common assumptions in the unsupervised learning of disentangled representations. In International Conference on Machine Leaning (ICML), 2018.
复制链接

扫一扫