Variational Autoencoders and Nonlinear ICA: A Unifying Framework

MTandHJ

于 2021-06-06 20:22:21 发布

阅读量494

点赞数 2

分类专栏： neural networks

本文链接：https://blog.csdn.net/MTandHJ/article/details/117636021

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

文章目录

Khemakhem I., Kingma D. P., Monti R. P. and Hyv"{a}rinen A. Variational autoencoders and nonlinear ICA: a unifying framework. In International Conference on Artificial Intelligence and Statistics (AISTATS), 2020.

概

本文讨论identifiability的问题, 即
$p_{\theta}(x) = p_{\tilde{\theta}}(x) \Rightarrow \theta = \tilde{\theta}$
在何种情况下能够成立, 或者近似成立.

主要内容

假设观测数据 $x$ 和隐变量 $z$ 满足联合分布:
$p_{\theta^*}(x, z) = p_{\theta^*}(x|z) p_{\theta^*}(z),$
因为隐变量是未知的, 所以我们接触到的实际上只有边际分布
$p_{\theta^*}(x) = \int_z p_{\theta^*}(x, z)\mathrm{d}z.$
在实际估计参数 $\theta$ 的时候, 很有可能发生:
$p_{\theta}(x) = p_{\tilde{\theta}}(x) \approx p_{\theta^*}(x), \: \theta \not = \tilde{\theta}.$
即两个不同的联合分布 $p_{\theta}(x, z), p_{\tilde{\theta}}(x, z)$ 但是却对应着同一个边际分布, 这就identifiability的问题.
在经典的VAE框架中, 已经有工作指出, 无监督下, 即仅凭观测数据 $x$ , 是无法保证identifiability的.

本文的模型

本文需要用到一些额外的信息 $u$ , 考虑如下分布:
$p_{\theta}(x, z|u) = p_f(x|z) p_{T,\lambda}(z|u), \: \theta = (f, T, \lambda).$
注: $\in \mathbb{R}^d, z \in \mathbb{R}^n, u \in \mathbb{R}^m$ .

其中,
$\epsilon \Rightarrow p_{f}(x|z) = p_{\epsilon}(x - f(z)).$
$p_{T, \lambda}(z|u) = \prod_{i}\frac{Q_i(z_i)}{Z_i(u)}\exp [\sum_{j=1}^k T_{i,j}(z_i) \lambda_{i,j}(u)],$
即假设先验 $z|\mu$ 满足的是指数族的分布.

套用VAE的框架:

encoder:
$\hat{T}, \hat{\lambda} = h(x, u;\phi), z \sim p_{\hat{T}, \hat{\lambda}}(z|u).$
decoder:
$\hat{x} = f(z) + \epsilon.$

既估计的后验分布为 $q_{\phi}(z|x,\mu)$ , 则ELBO:
$\mathbb{E}_{q_{\mathcal{D}(x,u)}}[\mathbb{E}_{q_{\phi}(z|x,u)}[\log p_{\theta}(x, z|u) - \log q_{\phi}(z|x,u)]].$

Identifiability

$\sim$ 定义: 定义 $\sim$ 等价关系如下:
$\lambda) \sim (\tilde{f}, \tilde{T}, \tilde{\lambda}) \Leftrightarrow \\ \exist A, c, \: \mathrm{s.t.} \: T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \forall x \in \mathcal{X},$
其中 $\in \mathbb{R}^{nk \times nk}$ . 若 $A$ 还是个可逆矩阵, 则
$\lambda) \sim_{A} (\tilde{f}, \tilde{T}, \tilde{\lambda}).$

显然, 如果
$p_{\theta}(x|u) = p_{\tilde{\theta}}(x|u) \Rightarrow \theta \sim_A \tilde{\theta},$
那么可以说是在线性变换允许范围内是identifiable的.

接下来给出的定理说明了什么时候 $\theta, \tilde{\theta}$ 是 $\sim_A$ -identifiable的.

定理: 在前述定义的模型下, 对于 $\theta = (f, T, \lambda)$ , 以及任意 $\tilde{\theta} =(\tilde{f}, \tilde{T}, \tilde{\lambda})$ 满足
$p_{\theta}(x|u)= p_{\tilde{\theta}}(x|u), \: a.e.,$
若一下条件成立, 则 $\theta \sim_A \tilde{\theta}$ :

若 $\varphi_{\epsilon}$ 为 $p_{\epsilon}$ 的特征函数(这里即为对于的傅里叶变换), 且 $\varphi_{\epsilon} \not = 0, \: a.e.$ .
$f$ 是一个单射.
$T_{i, j}$ 几乎处处可微, 且 $T_{ij})_j(x)$ 线性独立, 即
$\sum_j^k \alpha_{ij} T_{i, j}(x) = c_{i}, \forall x, \Rightarrow c_i = 0, \alpha_{ij} = 0, \forall j,$
对于 $i=1,\ldots, n$ 均成立.
存在不同的点 $u^0, \cdots, u^{nk}$ , 使得
$(\lambda(u_1) - \lambda(u_0), \cdots, \lambda(u_{nk}) - \lambda(u_0)) \in \mathbb{R}^{nk \times nk}.$
可逆.

证明流程:
利用条件1, 2证明
$p_{T,\lambda}(f^{-1}(x)|u) \mathrm{vol} J_{f^{-1}}(x) =p_{\tilde{T},\tilde{\lambda}}(f^{-1}(x)|u) \mathrm{vol} J_{\tilde{f}^{-1}}(x).$
利用条件4证明
$T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \: A = L^{-T}\tilde{L}^T.$
利用条件3证明 $A$ 可逆.

注: 显然条件四一定程度熵说明了为什么无监督不行(因为其相当于 $\lambda(u)$ 为常数).

注: 关于引理2的证明我有疑问, 我认为应当这般证明:

令 $\mathcal{X}_i = \{x \in \mathbb{R}, T_i'(x) = 0\}$ , 取 $\theta_i\not=0, \theta_j = 0, j\not=i$ , 则
$\langle T'(x), \theta \rangle = 0, \forall x \in \mathcal{X_i} \Rightarrow \langle T(x), \theta \rangle = \mathrm{const},$
由定义知 $\mathcal{X}_i$ 的测度为0.

注: 本文还有一些别的identifiability的讨论, 这里不多赘述.

MTandHJ

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
Variational Autoencoders and Nonlinear ICA: A Unifying Framework

文章目录概主要内容本文的模型IdentifiabilityKhemakhem I., Kingma D. P., Monti R. P. and Hyv"{a}rinen A. Variational autoencoders and nonlinear ICA: a unifying framework. In International Conference on Artificial Intelligence and Statistics (AISTATS), 2020.概本文讨论ident
复制链接

扫一扫

专栏目录