概
本文讨论identifiability的问题, 即
p
θ
(
x
)
=
p
θ
~
(
x
)
⇒
θ
=
θ
~
p_{\theta}(x) = p_{\tilde{\theta}}(x) \Rightarrow \theta = \tilde{\theta}
pθ(x)=pθ~(x)⇒θ=θ~
在何种情况下能够成立, 或者近似成立.
主要内容
假设观测数据
x
x
x和隐变量
z
z
z满足联合分布:
p
θ
∗
(
x
,
z
)
=
p
θ
∗
(
x
∣
z
)
p
θ
∗
(
z
)
,
p_{\theta^*}(x, z) = p_{\theta^*}(x|z) p_{\theta^*}(z),
pθ∗(x,z)=pθ∗(x∣z)pθ∗(z),
因为隐变量是未知的, 所以我们接触到的实际上只有边际分布
p
θ
∗
(
x
)
=
∫
z
p
θ
∗
(
x
,
z
)
d
z
.
p_{\theta^*}(x) = \int_z p_{\theta^*}(x, z)\mathrm{d}z.
pθ∗(x)=∫zpθ∗(x,z)dz.
在实际估计参数
θ
\theta
θ的时候, 很有可能发生:
p
θ
(
x
)
=
p
θ
~
(
x
)
≈
p
θ
∗
(
x
)
,
θ
≠
θ
~
.
p_{\theta}(x) = p_{\tilde{\theta}}(x) \approx p_{\theta^*}(x), \: \theta \not = \tilde{\theta}.
pθ(x)=pθ~(x)≈pθ∗(x),θ=θ~.
即两个不同的联合分布
p
θ
(
x
,
z
)
,
p
θ
~
(
x
,
z
)
p_{\theta}(x, z), p_{\tilde{\theta}}(x, z)
pθ(x,z),pθ~(x,z)但是却对应着同一个边际分布, 这就identifiability的问题.
在经典的VAE框架中, 已经有工作指出, 无监督下, 即仅凭观测数据
x
x
x, 是无法保证identifiability的.
本文的模型
本文需要用到一些额外的信息
u
u
u, 考虑如下分布:
p
θ
(
x
,
z
∣
u
)
=
p
f
(
x
∣
z
)
p
T
,
λ
(
z
∣
u
)
,
θ
=
(
f
,
T
,
λ
)
.
p_{\theta}(x, z|u) = p_f(x|z) p_{T,\lambda}(z|u), \: \theta = (f, T, \lambda).
pθ(x,z∣u)=pf(x∣z)pT,λ(z∣u),θ=(f,T,λ).
注:
x
∈
R
d
,
z
∈
R
n
,
u
∈
R
m
x \in \mathbb{R}^d, z \in \mathbb{R}^n, u \in \mathbb{R}^m
x∈Rd,z∈Rn,u∈Rm.
其中,
x
=
f
(
z
)
+
ϵ
⇒
p
f
(
x
∣
z
)
=
p
ϵ
(
x
−
f
(
z
)
)
.
x = f(z) + \epsilon \Rightarrow p_{f}(x|z) = p_{\epsilon}(x - f(z)).
x=f(z)+ϵ⇒pf(x∣z)=pϵ(x−f(z)).
p
T
,
λ
(
z
∣
u
)
=
∏
i
Q
i
(
z
i
)
Z
i
(
u
)
exp
[
∑
j
=
1
k
T
i
,
j
(
z
i
)
λ
i
,
j
(
u
)
]
,
p_{T, \lambda}(z|u) = \prod_{i}\frac{Q_i(z_i)}{Z_i(u)}\exp [\sum_{j=1}^k T_{i,j}(z_i) \lambda_{i,j}(u)],
pT,λ(z∣u)=i∏Zi(u)Qi(zi)exp[j=1∑kTi,j(zi)λi,j(u)],
即假设先验
z
∣
μ
z|\mu
z∣μ满足的是指数族的分布.
套用VAE的框架:
- encoder:
T ^ , λ ^ = h ( x , u ; ϕ ) , z ∼ p T ^ , λ ^ ( z ∣ u ) . \hat{T}, \hat{\lambda} = h(x, u;\phi), z \sim p_{\hat{T}, \hat{\lambda}}(z|u). T^,λ^=h(x,u;ϕ),z∼pT^,λ^(z∣u). - decoder:
x ^ = f ( z ) + ϵ . \hat{x} = f(z) + \epsilon. x^=f(z)+ϵ.
既估计的后验分布为
q
ϕ
(
z
∣
x
,
μ
)
q_{\phi}(z|x,\mu)
qϕ(z∣x,μ), 则ELBO:
E
q
D
(
x
,
u
)
[
E
q
ϕ
(
z
∣
x
,
u
)
[
log
p
θ
(
x
,
z
∣
u
)
−
log
q
ϕ
(
z
∣
x
,
u
)
]
]
.
\mathbb{E}_{q_{\mathcal{D}(x,u)}}[\mathbb{E}_{q_{\phi}(z|x,u)}[\log p_{\theta}(x, z|u) - \log q_{\phi}(z|x,u)]].
EqD(x,u)[Eqϕ(z∣x,u)[logpθ(x,z∣u)−logqϕ(z∣x,u)]].
Identifiability
∼
\sim
∼定义: 定义
∼
\sim
∼等价关系如下:
(
f
,
T
,
λ
)
∼
(
f
~
,
T
~
,
λ
~
)
⇔
∃
A
,
c
,
s
.
t
.
T
(
f
−
1
(
x
)
)
=
A
T
~
(
f
~
−
1
(
x
)
)
+
c
,
∀
x
∈
X
,
(f, T, \lambda) \sim (\tilde{f}, \tilde{T}, \tilde{\lambda}) \Leftrightarrow \\ \exist A, c, \: \mathrm{s.t.} \: T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \forall x \in \mathcal{X},
(f,T,λ)∼(f~,T~,λ~)⇔∃A,c,s.t.T(f−1(x))=AT~(f~−1(x))+c,∀x∈X,
其中
A
∈
R
n
k
×
n
k
A \in \mathbb{R}^{nk \times nk}
A∈Rnk×nk. 若
A
A
A还是个可逆矩阵, 则
(
f
,
T
,
λ
)
∼
A
(
f
~
,
T
~
,
λ
~
)
.
(f, T, \lambda) \sim_{A} (\tilde{f}, \tilde{T}, \tilde{\lambda}).
(f,T,λ)∼A(f~,T~,λ~).
显然, 如果
p
θ
(
x
∣
u
)
=
p
θ
~
(
x
∣
u
)
⇒
θ
∼
A
θ
~
,
p_{\theta}(x|u) = p_{\tilde{\theta}}(x|u) \Rightarrow \theta \sim_A \tilde{\theta},
pθ(x∣u)=pθ~(x∣u)⇒θ∼Aθ~,
那么可以说是在线性变换允许范围内是identifiable的.
接下来给出的定理说明了什么时候 θ , θ ~ \theta, \tilde{\theta} θ,θ~是 ∼ A \sim_A ∼A-identifiable的.
定理: 在前述定义的模型下, 对于
θ
=
(
f
,
T
,
λ
)
\theta = (f, T, \lambda)
θ=(f,T,λ), 以及任意
θ
~
=
(
f
~
,
T
~
,
λ
~
)
\tilde{\theta} =(\tilde{f}, \tilde{T}, \tilde{\lambda})
θ~=(f~,T~,λ~)满足
p
θ
(
x
∣
u
)
=
p
θ
~
(
x
∣
u
)
,
a
.
e
.
,
p_{\theta}(x|u)= p_{\tilde{\theta}}(x|u), \: a.e.,
pθ(x∣u)=pθ~(x∣u),a.e.,
若一下条件成立, 则
θ
∼
A
θ
~
\theta \sim_A \tilde{\theta}
θ∼Aθ~:
-
若 φ ϵ \varphi_{\epsilon} φϵ为 p ϵ p_{\epsilon} pϵ的特征函数(这里即为对于的傅里叶变换), 且 φ ϵ ≠ 0 , a . e . \varphi_{\epsilon} \not = 0, \: a.e. φϵ=0,a.e..
-
f f f是一个单射.
-
T i , j T_{i, j} Ti,j几乎处处可微, 且 ( T i j ) j ( x ) (T_{ij})_j(x) (Tij)j(x)线性独立, 即
∑ j k α i j T i , j ( x ) = c i , ∀ x , ⇒ c i = 0 , α i j = 0 , ∀ j , \sum_j^k \alpha_{ij} T_{i, j}(x) = c_{i}, \forall x, \Rightarrow c_i = 0, \alpha_{ij} = 0, \forall j, j∑kαijTi,j(x)=ci,∀x,⇒ci=0,αij=0,∀j,
对于 i = 1 , … , n i=1,\ldots, n i=1,…,n均成立. -
存在不同的点 u 0 , ⋯ , u n k u^0, \cdots, u^{nk} u0,⋯,unk, 使得
L = ( λ ( u 1 ) − λ ( u 0 ) , ⋯ , λ ( u n k ) − λ ( u 0 ) ) ∈ R n k × n k . L = (\lambda(u_1) - \lambda(u_0), \cdots, \lambda(u_{nk}) - \lambda(u_0)) \in \mathbb{R}^{nk \times nk}. L=(λ(u1)−λ(u0),⋯,λ(unk)−λ(u0))∈Rnk×nk.
可逆.
证明流程:
利用条件1, 2证明
p
T
,
λ
(
f
−
1
(
x
)
∣
u
)
v
o
l
J
f
−
1
(
x
)
=
p
T
~
,
λ
~
(
f
−
1
(
x
)
∣
u
)
v
o
l
J
f
~
−
1
(
x
)
.
p_{T,\lambda}(f^{-1}(x)|u) \mathrm{vol} J_{f^{-1}}(x) =p_{\tilde{T},\tilde{\lambda}}(f^{-1}(x)|u) \mathrm{vol} J_{\tilde{f}^{-1}}(x).
pT,λ(f−1(x)∣u)volJf−1(x)=pT~,λ~(f−1(x)∣u)volJf~−1(x).
利用条件4证明
T
(
f
−
1
(
x
)
)
=
A
T
~
(
f
~
−
1
(
x
)
)
+
c
,
A
=
L
−
T
L
~
T
.
T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \: A = L^{-T}\tilde{L}^T.
T(f−1(x))=AT~(f~−1(x))+c,A=L−TL~T.
利用条件3证明
A
A
A可逆.
注: 显然条件四一定程度熵说明了为什么无监督不行(因为其相当于 λ ( u ) \lambda(u) λ(u)为常数).
注: 关于引理2的证明我有疑问, 我认为应当这般证明:
令
X
i
=
{
x
∈
R
,
T
i
′
(
x
)
=
0
}
\mathcal{X}_i = \{x \in \mathbb{R}, T_i'(x) = 0\}
Xi={x∈R,Ti′(x)=0}, 取
θ
i
≠
0
,
θ
j
=
0
,
j
≠
i
\theta_i\not=0, \theta_j = 0, j\not=i
θi=0,θj=0,j=i, 则
⟨
T
′
(
x
)
,
θ
⟩
=
0
,
∀
x
∈
X
i
⇒
⟨
T
(
x
)
,
θ
⟩
=
c
o
n
s
t
,
\langle T'(x), \theta \rangle = 0, \forall x \in \mathcal{X_i} \Rightarrow \langle T(x), \theta \rangle = \mathrm{const},
⟨T′(x),θ⟩=0,∀x∈Xi⇒⟨T(x),θ⟩=const,
由定义知
X
i
\mathcal{X}_i
Xi的测度为0.
注: 本文还有一些别的identifiability的讨论, 这里不多赘述.