Variational Autoencoders and Nonlinear ICA: A Unifying Framework

Khemakhem I., Kingma D. P., Monti R. P. and Hyv"{a}rinen A. Variational autoencoders and nonlinear ICA: a unifying framework. In International Conference on Artificial Intelligence and Statistics (AISTATS), 2020.

本文讨论identifiability的问题, 即
p θ ( x ) = p θ ~ ( x ) ⇒ θ = θ ~ p_{\theta}(x) = p_{\tilde{\theta}}(x) \Rightarrow \theta = \tilde{\theta} pθ(x)=pθ~(x)θ=θ~
在何种情况下能够成立, 或者近似成立.

主要内容

假设观测数据 x x x和隐变量 z z z满足联合分布:
p θ ∗ ( x , z ) = p θ ∗ ( x ∣ z ) p θ ∗ ( z ) , p_{\theta^*}(x, z) = p_{\theta^*}(x|z) p_{\theta^*}(z), pθ(x,z)=pθ(xz)pθ(z),
因为隐变量是未知的, 所以我们接触到的实际上只有边际分布
p θ ∗ ( x ) = ∫ z p θ ∗ ( x , z ) d z . p_{\theta^*}(x) = \int_z p_{\theta^*}(x, z)\mathrm{d}z. pθ(x)=zpθ(x,z)dz.
在实际估计参数 θ \theta θ的时候, 很有可能发生:
p θ ( x ) = p θ ~ ( x ) ≈ p θ ∗ ( x ) ,   θ ≠ θ ~ . p_{\theta}(x) = p_{\tilde{\theta}}(x) \approx p_{\theta^*}(x), \: \theta \not = \tilde{\theta}. pθ(x)=pθ~(x)pθ(x),θ=θ~.
即两个不同的联合分布 p θ ( x , z ) , p θ ~ ( x , z ) p_{\theta}(x, z), p_{\tilde{\theta}}(x, z) pθ(x,z),pθ~(x,z)但是却对应着同一个边际分布, 这就identifiability的问题.
在经典的VAE框架中, 已经有工作指出, 无监督下, 即仅凭观测数据 x x x, 是无法保证identifiability的.

本文的模型

本文需要用到一些额外的信息 u u u, 考虑如下分布:
p θ ( x , z ∣ u ) = p f ( x ∣ z ) p T , λ ( z ∣ u ) ,   θ = ( f , T , λ ) . p_{\theta}(x, z|u) = p_f(x|z) p_{T,\lambda}(z|u), \: \theta = (f, T, \lambda). pθ(x,zu)=pf(xz)pT,λ(zu),θ=(f,T,λ).
注: x ∈ R d , z ∈ R n , u ∈ R m x \in \mathbb{R}^d, z \in \mathbb{R}^n, u \in \mathbb{R}^m xRd,zRn,uRm.

其中,
x = f ( z ) + ϵ ⇒ p f ( x ∣ z ) = p ϵ ( x − f ( z ) ) . x = f(z) + \epsilon \Rightarrow p_{f}(x|z) = p_{\epsilon}(x - f(z)). x=f(z)+ϵpf(xz)=pϵ(xf(z)).
p T , λ ( z ∣ u ) = ∏ i Q i ( z i ) Z i ( u ) exp ⁡ [ ∑ j = 1 k T i , j ( z i ) λ i , j ( u ) ] , p_{T, \lambda}(z|u) = \prod_{i}\frac{Q_i(z_i)}{Z_i(u)}\exp [\sum_{j=1}^k T_{i,j}(z_i) \lambda_{i,j}(u)], pT,λ(zu)=iZi(u)Qi(zi)exp[j=1kTi,j(zi)λi,j(u)],
即假设先验 z ∣ μ z|\mu zμ满足的是指数族的分布.

套用VAE的框架:

  1. encoder:
    T ^ , λ ^ = h ( x , u ; ϕ ) , z ∼ p T ^ , λ ^ ( z ∣ u ) . \hat{T}, \hat{\lambda} = h(x, u;\phi), z \sim p_{\hat{T}, \hat{\lambda}}(z|u). T^,λ^=h(x,u;ϕ),zpT^,λ^(zu).
  2. decoder:
    x ^ = f ( z ) + ϵ . \hat{x} = f(z) + \epsilon. x^=f(z)+ϵ.

既估计的后验分布为 q ϕ ( z ∣ x , μ ) q_{\phi}(z|x,\mu) qϕ(zx,μ), 则ELBO:
E q D ( x , u ) [ E q ϕ ( z ∣ x , u ) [ log ⁡ p θ ( x , z ∣ u ) − log ⁡ q ϕ ( z ∣ x , u ) ] ] . \mathbb{E}_{q_{\mathcal{D}(x,u)}}[\mathbb{E}_{q_{\phi}(z|x,u)}[\log p_{\theta}(x, z|u) - \log q_{\phi}(z|x,u)]]. EqD(x,u)[Eqϕ(zx,u)[logpθ(x,zu)logqϕ(zx,u)]].

Identifiability

∼ \sim 定义: 定义 ∼ \sim 等价关系如下:
( f , T , λ ) ∼ ( f ~ , T ~ , λ ~ ) ⇔ ∃ A , c ,   s . t .   T ( f − 1 ( x ) ) = A T ~ ( f ~ − 1 ( x ) ) + c , ∀ x ∈ X , (f, T, \lambda) \sim (\tilde{f}, \tilde{T}, \tilde{\lambda}) \Leftrightarrow \\ \exist A, c, \: \mathrm{s.t.} \: T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \forall x \in \mathcal{X}, (f,T,λ)(f~,T~,λ~)A,c,s.t.T(f1(x))=AT~(f~1(x))+c,xX,
其中 A ∈ R n k × n k A \in \mathbb{R}^{nk \times nk} ARnk×nk. 若 A A A还是个可逆矩阵, 则
( f , T , λ ) ∼ A ( f ~ , T ~ , λ ~ ) . (f, T, \lambda) \sim_{A} (\tilde{f}, \tilde{T}, \tilde{\lambda}). (f,T,λ)A(f~,T~,λ~).

显然, 如果
p θ ( x ∣ u ) = p θ ~ ( x ∣ u ) ⇒ θ ∼ A θ ~ , p_{\theta}(x|u) = p_{\tilde{\theta}}(x|u) \Rightarrow \theta \sim_A \tilde{\theta}, pθ(xu)=pθ~(xu)θAθ~,
那么可以说是在线性变换允许范围内是identifiable的.

接下来给出的定理说明了什么时候 θ , θ ~ \theta, \tilde{\theta} θ,θ~ ∼ A \sim_A A-identifiable的.

定理: 在前述定义的模型下, 对于 θ = ( f , T , λ ) \theta = (f, T, \lambda) θ=(f,T,λ), 以及任意 θ ~ = ( f ~ , T ~ , λ ~ ) \tilde{\theta} =(\tilde{f}, \tilde{T}, \tilde{\lambda}) θ~=(f~,T~,λ~)满足
p θ ( x ∣ u ) = p θ ~ ( x ∣ u ) ,   a . e . , p_{\theta}(x|u)= p_{\tilde{\theta}}(x|u), \: a.e., pθ(xu)=pθ~(xu),a.e.,
若一下条件成立, 则 θ ∼ A θ ~ \theta \sim_A \tilde{\theta} θAθ~:

  1. φ ϵ \varphi_{\epsilon} φϵ p ϵ p_{\epsilon} pϵ特征函数(这里即为对于的傅里叶变换), 且 φ ϵ ≠ 0 ,   a . e . \varphi_{\epsilon} \not = 0, \: a.e. φϵ=0,a.e..

  2. f f f是一个单射.

  3. T i , j T_{i, j} Ti,j几乎处处可微, 且 ( T i j ) j ( x ) (T_{ij})_j(x) (Tij)j(x)线性独立, 即
    ∑ j k α i j T i , j ( x ) = c i , ∀ x , ⇒ c i = 0 , α i j = 0 , ∀ j , \sum_j^k \alpha_{ij} T_{i, j}(x) = c_{i}, \forall x, \Rightarrow c_i = 0, \alpha_{ij} = 0, \forall j, jkαijTi,j(x)=ci,x,ci=0,αij=0,j,
    对于 i = 1 , … , n i=1,\ldots, n i=1,,n均成立.

  4. 存在不同的点 u 0 , ⋯   , u n k u^0, \cdots, u^{nk} u0,,unk, 使得
    L = ( λ ( u 1 ) − λ ( u 0 ) , ⋯   , λ ( u n k ) − λ ( u 0 ) ) ∈ R n k × n k . L = (\lambda(u_1) - \lambda(u_0), \cdots, \lambda(u_{nk}) - \lambda(u_0)) \in \mathbb{R}^{nk \times nk}. L=(λ(u1)λ(u0),,λ(unk)λ(u0))Rnk×nk.
    可逆.

证明流程:
利用条件1, 2证明
p T , λ ( f − 1 ( x ) ∣ u ) v o l J f − 1 ( x ) = p T ~ , λ ~ ( f − 1 ( x ) ∣ u ) v o l J f ~ − 1 ( x ) . p_{T,\lambda}(f^{-1}(x)|u) \mathrm{vol} J_{f^{-1}}(x) =p_{\tilde{T},\tilde{\lambda}}(f^{-1}(x)|u) \mathrm{vol} J_{\tilde{f}^{-1}}(x). pT,λ(f1(x)u)volJf1(x)=pT~,λ~(f1(x)u)volJf~1(x).
利用条件4证明
T ( f − 1 ( x ) ) = A T ~ ( f ~ − 1 ( x ) ) + c ,   A = L − T L ~ T . T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \: A = L^{-T}\tilde{L}^T. T(f1(x))=AT~(f~1(x))+c,A=LTL~T.
利用条件3证明 A A A可逆.

注: 显然条件四一定程度熵说明了为什么无监督不行(因为其相当于 λ ( u ) \lambda(u) λ(u)为常数).

注: 关于引理2的证明我有疑问, 我认为应当这般证明:

X i = { x ∈ R , T i ′ ( x ) = 0 } \mathcal{X}_i = \{x \in \mathbb{R}, T_i'(x) = 0\} Xi={xR,Ti(x)=0}, 取 θ i ≠ 0 , θ j = 0 , j ≠ i \theta_i\not=0, \theta_j = 0, j\not=i θi=0,θj=0,j=i, 则
⟨ T ′ ( x ) , θ ⟩ = 0 , ∀ x ∈ X i ⇒ ⟨ T ( x ) , θ ⟩ = c o n s t , \langle T'(x), \theta \rangle = 0, \forall x \in \mathcal{X_i} \Rightarrow \langle T(x), \theta \rangle = \mathrm{const}, T(x),θ=0,xXiT(x),θ=const,
由定义知 X i \mathcal{X}_i Xi的测度为0.

注: 本文还有一些别的identifiability的讨论, 这里不多赘述.

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值