15-P-PCA从概率角度思考PCA主成分分析

1.数据定义

我们知道主成分分析PCA主要是将原始样本数据X从p维度降到q维,是对原始特征空间的重构。我们假设Z是重构空间,X是原始空间;
X ∈ R p , Z ∈ R q , q < p ; z = l a t e n t − v a r i a b l e ( 隐 变 量 ) ; x = o b s e r v e d − d a t a ( 观 测 数 据 ) ; (1) X\in \mathbb{R}^p,Z \in \mathbb{R}^q,q<p;z=latent-variable(隐变量);x=observed-data(观测数据);\tag{1} XRp,ZRq,q<p;z=latentvariable()x=observeddata()(1)
我们给z一个先验 Z ∼ N ( 0 q , I q ) ; 假 设 X 与 Z 满 足 线 性 关 系 X = W Z + μ + ϵ ; Z \sim N(0_q,I_q);假设X与Z满足线性关系X=WZ+\mu+\epsilon; ZN(0qIq);XZ线X=WZ+μ+ϵ;
噪 声 ϵ ∼ N ( 0 , σ 2 I p ) ; 噪 声 ϵ 独 立 于 Z ; 噪声\epsilon\sim N(0,\sigma^2I_p);噪声\epsilon 独立于Z; ϵN(0,σ2Ip)ϵZ;
线性高斯模型:
1.隐变量z和观测量x是线性关系;
2.噪声服从高斯分布, σ 2 I p 是 对 角 线 值 均 为 σ 2 的 对 角 矩 阵 ; 这 个 矩 阵 为 各 向 同 性 矩 阵 \sigma^2I_p是对角线值均为\sigma^2的对角矩阵;这个矩阵为各向同性矩阵 σ2Ip线σ2
P-PCA:
infernece:p(z|x)
learning: w , μ , σ 2 w,\mu,\sigma^2 w,μ,σ2—>EM算法

1.1 GMM与P-PCA区别

对于GMM来说,隐变量Z是离散的;对于P-PCA来说,隐变量Z是连续的
在这里插入图片描述

2.模型图

在这里插入图片描述

  1. 在高斯分布图中取一点Z,得到P(Z),再在线性变换中得到X=WZ
  2. 在线性直线上得到WZ+μ+ε;此时的数值是以wz+μ为中心,以 σ 2 为 半 径 的 圆 , 不 断 的 采 集 Z , 就 可 以 得 到 不 同 的 各 向 同 性 圆 \sigma^2为半径的圆,不断的采集Z,就可以得到不同的各向同性圆 σ2Z
  3. P(X)就是以w为轴方向的各向分布圆,如图所示;

3.模型推断

3.1 求P(X|Z)分布

∵ z ∼ N ( 0 , I ) ; X = W Z + μ + ϵ ; ϵ ∼ N ( 0 , σ 2 I ) , ϵ ⊥ z ; \because z \sim N(0,I);X=WZ+\mu+\epsilon;\epsilon \sim N(0,\sigma^2I),\epsilon \perp z; zN(0,I)X=WZ+μ+ϵϵN(0,σ2I),ϵz;

∴ E ( X ∣ Z ) = E ( W Z + μ + ϵ ) = W Z + μ + E ( ϵ ) = W Z + μ ; ( 注 : 此 时 Z 是 已 知 常 量 ) \therefore E(X|Z)=E(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=WZ+\mu;(注:此时Z是已知常量) E(XZ)=E(WZ+μ+ϵ)=WZ+μ+E(ϵ)=WZ+μ;(Z)

∴ D ( X ∣ Z ) = D ( W Z + μ + ϵ ) = W Z + μ + E ( ϵ ) = 0 + σ 2 I ; \therefore D(X|Z)=D(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=0+\sigma^2I; D(XZ)=D(WZ+μ+ϵ)=WZ+μ+E(ϵ)=0+σ2I;

P ( X ∣ Z ) ∼ N ( W Z + μ , σ 2 I ) (2) P(X|Z)\sim N(WZ+\mu,\sigma^2I)\tag{2} P(XZ)N(WZ+μ,σ2I)(2)

3.2 求P(X)分布

∴ E ( X ) = E ( W Z + μ + ϵ ) = W E ( Z ) + μ + E ( ϵ ) = 0 + μ + 0 = μ ( 注 : 此 时 Z 是 自 变 量 ) \therefore E(X)=E(WZ+\mu+\epsilon)=WE(Z)+\mu+E(\epsilon)=0+\mu+0=\mu(注:此时Z是自变量) E(X)=E(WZ+μ+ϵ)=WE(Z)+μ+E(ϵ)=0+μ+0=μ(Z)

∴ D ( X ) = D ( W Z + μ + ϵ ) = W D ( Z ) W T + 0 + D ( ϵ ) = W I W T + σ 2 I ( 注 : 此 时 Z 是 自 变 量 ) \therefore D(X)=D(WZ+\mu+\epsilon)=WD(Z)W^T+0+D(\epsilon)=WIW^T+\sigma^2I(注:此时Z是自变量) D(X)=D(WZ+μ+ϵ)=WD(Z)WT+0+D(ϵ)=WIWT+σ2I(Z)
P ( X ) ∼ N ( μ , W I W T + σ 2 I ) (3) P(X)\sim N(\mu,WIW^T+\sigma^2I) \tag{3} P(X)N(μ,WIWT+σ2I)(3)

3.3引用高斯分布中,已知联合概率求条件概率公式

链接如下:14-高斯分布基础知识
已 知 : X = ( x a x b ) ; m + n = p ; μ = ( μ a μ b ) ; Σ = ( Σ a a Σ a b Σ b a Σ b b ) ; Σ a b = Σ b a T (4) 已知:X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {4} X=xaxb;m+n=p;μ=μaμb;Σ=(ΣaaΣbaΣabΣbb);Σab=ΣbaT(4)
求 边 缘 概 率 p ( x a ) , 条 件 概 率 p ( x b ∣ x a ) 求边缘概率p(x_a),条件概率p(x_b|x_a) p(xa),p(xbxa)
构造相关变量:
x b ⋅ a = x b − Σ b a Σ a a − 1 x a (5) x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{5} xba=xbΣbaΣaa1xa(5)
μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a (6) \mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{6} μba=μbΣbaΣaa1μa(6)
Σ b b ⋅ a = Σ b b − Σ b a Σ a a − 1 Σ a b (7) \Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{7} Σbba=ΣbbΣbaΣaa1Σab(7)
x b ⋅ a ∼ N ( μ b ⋅ a , Σ b b ⋅ a ) (8) x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{8} xbaN(μba,Σbba)(8)
E [ x b ∣ x a ] = μ b + Σ b a Σ a a − 1 ( x a − μ a ) (9) \mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{9} E[xbxa]=μb+ΣbaΣaa1(xaμa)(9)
D [ x b ∣ x a ] = Σ b b − Σ b a Σ a a − 1 Σ a b (10) \mathbb{D}[x_{b}|x_a]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{10} D[xbxa]=ΣbbΣbaΣaa1Σab(10)
结 论 : p ( x b ∣ x a ) ∼ N [ μ b + Σ b a Σ a a − 1 ( x a − μ a ) , Σ b b − Σ b a Σ a a − 1 Σ a b ] (11) 结论:p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{11} p(xbxa)N[μb+ΣbaΣaa1(xaμa),ΣbbΣbaΣaa1Σab](11)

3.4构造相关函数

3.4.1 令M为X,Z组合函数

M = ( x z ) ; P ( x ) ∼ N ( μ , W I W T + σ 2 I ) ; P ( z ) ∼ N ( 0 , I ) (12) M= \begin{pmatrix} x\\\\z \end{pmatrix};P(x)\sim N(\mu,WIW^T+\sigma^2I);P(z) \sim N(0,I) \tag{12} M=xz;P(x)N(μ,WIWT+σ2I);P(z)N(0,I)(12)
M = ( x z ) ∼ N ( ( μ x   μ z ) , ( Σ x x Σ x z Σ z x Σ z z ) ) (13) M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu_x\\\\\ \mu_z \end{pmatrix}, \begin{pmatrix} \Sigma_{xx}&\Sigma_{xz}\\\Sigma_{zx}&\Sigma_{zz} \end{pmatrix}) \tag{13} M=xzN(μx μz,(ΣxxΣzxΣxzΣzz))(13)
Σ x x = D ( x ) = W I W T + σ 2 I ; Σ z z = D ( Z ) = I ; Σ x z = C o v ( x z ) (14) \Sigma_{xx}=D(x)=WIW^T+\sigma^2I;\Sigma_{zz}=D(Z)=I;\Sigma_{xz}=Cov(xz)\tag{14} Σxx=D(x)=WIWT+σ2I;Σzz=D(Z)=I;Σxz=Cov(xz)(14)\

3.4.2求COV(X,Z)

C o v ( x z ) = E [ ( x − μ x ) ( z − μ z ) T ] Cov(xz)=E[(x-\mu_x)(z-\mu_z)^T] Cov(xz)=E[(xμx)(zμz)T]

= E [ ( x − μ ) ( z ) T ] =E[(x-\mu)(z)^T] =E[(xμ)(z)T]

= E [ ( w z + μ + ϵ − μ ) ( z ) T ] =E[(wz+\mu+\epsilon-\mu)(z)^T] =E[(wz+μ+ϵμ)(z)T]

= E [ ( w z + ϵ ) z T ] =E[(wz+\epsilon)z^T] =E[(wz+ϵ)zT]

= E [ ( w z ) z T + ϵ z T ] =E[(wz)z^T+\epsilon z^T] =E[(wz)zT+ϵzT]

= E [ ( w z ) z T + ϵ z T ] =E[(wz)z^T+\epsilon z^T] =E[(wz)zT+ϵzT]

= w E [ z 2 ] + E [ ϵ ] E [ z T ] =wE[z^2]+E[\epsilon]E[ z^T] =wE[z2]+E[ϵ]E[zT]

注 : E ( z 2 ) = D ( z ) + [ E ( Z ) ] 2 = I ; E ( ϵ ) = 0 注:E(z^2)=D(z)+[E(Z)]^2=I;E(\epsilon)=0 E(z2)=D(z)+[E(Z)]2=I;E(ϵ)=0

= w E [ z 2 ] + E [ ϵ ] E [ z T ] =wE[z^2]+E[\epsilon]E[ z^T] =wE[z2]+E[ϵ]E[zT]

= w I = w =wI=w =wI=w
C o v ( X , Z ) = W (15) Cov(X,Z)=W\tag{15} Cov(X,Z)=W(15)
结 论 : M = ( x z ) ∼ N ( ( μ    0 ) , ( W I W T + σ 2 I W W T I ) ) (16) 结论:M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu\\\\\ \ 0 \end{pmatrix}, \begin{pmatrix} WIW^T+\sigma^2I&W\\W^T&I \end{pmatrix}) \tag{16} M=xzN(μ  0,(WIWT+σ2IWTWI))(16)
由3.4.1结论可得:
结 论 : p ( z ∣ x ) ∼ N [ μ z + Σ z x Σ x x − 1 ( x − μ x ) , Σ z z − Σ z x Σ x x − 1 Σ x z ] (17) 结论:p(z|x)\sim N[\mu_{z}+\Sigma_{zx}\Sigma_{xx}^{-1}(x-\mu_x),\Sigma_{zz}-\Sigma_{zx}\Sigma_{xx}^{-1}\Sigma_{xz}] \tag{17} p(zx)N[μz+ΣzxΣxx1(xμx),ΣzzΣzxΣxx1Σxz](17)
E ( Z ∣ X ) = W T ( W I W T + σ 2 I ) − 1 ( X − μ ) (18) \mathbb{E}(Z|X)=W^T(WIW^T+\sigma^2I)^{-1}(X-\mu) \tag{18} E(ZX)=WT(WIWT+σ2I)1(Xμ)(18)
D ( Z ∣ X ) = I − W T ( W I W T + σ 2 I ) − 1 W (19) \mathbb{D}(Z|X)=I-W^T(WIW^T+\sigma^2I)^{-1}W \tag{19} D(ZX)=IWT(WIWT+σ2I)1W(19)

3.5结论

结 果 : p ( z ∣ x ) ∼ N [ W T ( W I W T + σ 2 I ) − 1 ( X − μ ) , I − W T ( W I W T + σ 2 I ) − 1 W ] (20) 结果:p(z|x)\sim N[W^T(WIW^T+\sigma^2I)^{-1}(X-\mu),I-W^T(WIW^T+\sigma^2I)^{-1}W] \tag{20} p(zx)N[WT(WIWT+σ2I)1(Xμ),IWT(WIWT+σ2I)1W](20)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值