伯克利的机器学习课的note当中简要介绍了一下PPCA, 但是我看了感觉没写什么东西。Yu姐上PPCA那节课我翘了,导致我对于PPCA几乎是一无所知。碰巧翻了一下工大自己的机器学习课的ppt,翻到了关于PPCA的内容,所以就结合CS189的note了解了一下PPCA。
1. Key assumptions
PPCA假设所有的样本点都取样于某个分布 x ∈ R d {\bf x} \in {\Bbb R}^{d} x∈Rd,对于每个点 x i x_i xi,都有一个 z i z_i zi与之对应,取样于某个分布 z ∈ R k {\bf z} \in {\Bbb R}^{k} z∈Rk, 满足以下条件:
x = W z + μ + ϵ , W ∈ R d × k , μ ∈ R d , ϵ ∈ R d , ϵ ∼ N ( 0 , σ 2 I ) {\bf x} = W{\bf z}+\mu +\epsilon , W \in {\Bbb R}^{d \times k}, \mu \in {\Bbb R}^{d }, \epsilon \in {\Bbb R}^{d}, \epsilon \sim N(0,\sigma^2I) x=Wz+μ+ϵ,W∈Rd×k,μ∈Rd,ϵ∈Rd,ϵ∼N(0,σ2I)
其中 W , μ W,\mu W,μ都是常数, ϵ \epsilon ϵ是 i i d iid iid 的 noise
这个 z {\bf z} z 被称为latent variable
关于latent variable,可以简单的理解为我们看不见(观测不到)的变量,是我们希望从可观测到的变量推断的一个变量。
因为高斯分布的条件分布、联合分布都是高斯分布,所以,我们可以得到:
E [ x ] = E [ μ + W z + ϵ ] = μ E[x] = E[\mu + Wz + \epsilon] = \mu E[x]=E[μ+Wz+ϵ]=μ
C = C o v [ x ] = E [ ( μ + W z + ϵ − μ ) ( μ + W z + ϵ − μ ) T ] = E [ ( W z + ϵ ) ( W z + ϵ ) T ] = W W T + σ 2 I C = Cov[x]=E[(\mu+Wz+\epsilon -\mu)(\mu+Wz+\epsilon -\mu)^T] = E[(Wz+\epsilon)(Wz+\epsilon)^T] = WW^T + \sigma^2I C=Cov[x]=E[(μ+Wz+ϵ−μ)(μ+Wz+ϵ−μ)T]=E[(Wz+ϵ)(Wz+ϵ)T]=W