CS229 Lecture 14

最新推荐文章于 2020-09-18 21:06:49 发布

Light_blue_love

最新推荐文章于 2020-09-18 21:06:49 发布

阅读量200

点赞数

分类专栏： CS229 ML

本文链接：https://blog.csdn.net/Light_blue_love/article/details/107741728

版权

CS229 同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

本讲义探讨了因子分析的EM步骤和主成分分析（PCA）。介绍了在给定样本数据的情况下，如何对数据进行建模，包括隐变量模型的似然函数和EM算法的E、M步。PCA则用于高维数据的降维，通过寻找样本协方差矩阵的主特征向量实现。PCA在数据可视化、压缩、学习和异常检测等方面有广泛应用。

摘要由CSDN通过智能技术生成

CS229 Lecture 14

课程要点：

Factor Analysis - EM step
Principal Components Analysis (PCA)

如果 $\left[\begin{array}{c}x_1\\x_2\end{array}\right]$ ,且 $x\sim N(u,\Sigma)$ ,那么 $\left[\begin{array}{c}u_1\\u_2\end{array}\right]$ , $\Sigma= \left[\begin{array}{cc}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{array}\right]$ 。那边际分布 $P(x_1)$ 等于什么？通过上节课我们知道：

$x_1\sim N(u_1,\Sigma_{11})$

条件分布 $P(x_1|x_2)$ 满足 $x_1|x_2\sim N(u_{1|2},\Sigma_{1|2})$ ,其中

$u_{1|2}=u_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-u_2)$

$\Sigma_{1|2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{22}$

给定样本 ${x^{(1)},x^{(2)}.....x^{(m)}\}$ ,其中 $x^{(i)}\in R^{n}$ ,我们希望对这些数据进行建模 $P (x)$ :

$z\sim N(0,I)$ 且 $z\in R^{d}$

$x=u+\Lambda\Sigma+\varepsilon$ 其总 $\varepsilon\sim N(0,\Psi)$

这里的参数 $u\in R^{n}$ , $\Lambda \in R^{n\times d}$ , $\Psi \in R^{n\times n}$ 且其为对角矩阵。

$x|z\sim N(u+\Lambda z,\Psi)$

$\left[\begin{array}{c}z\\x\end{array}\right]\sim N(u_{zx},\Sigma)=N(\left[\begin{array}{c}0\\u\end{array}\right],\left[\begin{array}{cc}I&\Lambda^T\\\Lambda&\Lambda\Lambda^T+\Psi\end{array}\right])$

我们知道 $x\sim N(u,\Lambda\Lambda^T+\Psi)$

当给定样本 ${x^{(1)},x^{(2)}.....x^{(m)}\}$ ，求其似然函数：

$\prod_{i=1}^{m}P(x^{(i)};u,\Lambda,\Psi)=\frac{1}{(2\pi)^{n/2}|\Lambda\Lambda^T+\Psi|}\exp(-\frac{1}{2})(x^{(i)}-u)^T(\Lambda\Lambda^T+\Psi)^{-1}(x^{(i)}-u)$

可以对其求导，但是可以发现这样做十分困难，因此下面会通过EM方式对其进行求解，计算参数。

我们希望求出的参数是使 ${x^{(1)},x^{(2)}.....x^{(m)}\}$ 以最大概率出现，但存在隐变量 $z$ 因此：

$\max_{\theta}\prod_{i=1}^{m}P(x^{(i)};\theta)=\max_{\theta}\prod_{i=1}^{m}\int_{z^{(i)}}P(x^{(i)},z^{(i)};\theta)dz^{(i)}$

EM求解

E step:

$Q_i(z^{(i)})=P(z^{(i)}|x^{(i)};\theta)$

M step:

$\theta:=\arg \max_{\theta}\sum_{i=1}^{m}\int_{z^{(i)}}Q_{i}(z^{(i)})log\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}dz^{(i)}$

在E step中：

$z^{(i)}|x^{(i)}\sim N(u_{z^{(i)}|x^{(i)}},\Sigma_{z^{(i)}|x^{(i)}})$

其中 $u_{z^{(i)}|x^{(i)}}=\vec{0}-\Lambda^T(\Lambda\Lambda^T+\Psi)^{-1}(x^{(i)}-u)$

这里是和前面提到过的 $u_{1|2}=u_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-u_2)$ 一一对应的。

$\Sigma_{z^{(i)}|x^{(i)}}=I-\Lambda^T(\Lambda\Lambda^T+\Psi)^{-1}\Lambda$

这里是和前面提到过的 $\Sigma_{1|2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{22}$ 一一对应的。

在M step中如果我们将 $Q_i(z^{(i)})$ 的公式代入 $\int_{z^{(i)}}Q_i(z^{(i)})z^{(i)}dz^{(i)}$ ：

$\int_{z^{(i)}}\frac{1}{(2\pi)^{k/2}|\Sigma_{z^{(i)}|x^{(i)}}|}\exp(-\frac{1}{2}(z_{z^{(i)}-u_{x^{(i)}|x^{(i)}}})\Sigma_{z^{(i)}|x^{(i)}}(z_{z^{(i)}-u_{x^{(i)}|x^{(i)}}}))z^{(i)}dz^{(i)}$

可以发现上式是极难求解的。

另一种方式是将其看做 $z$ 的期望 $E_{z\sim Q_i}[z^{(i)}]=u_{z^{(i)}|x^{(i)}}$

$E_{z\sim Q_i}[log\frac{P(z^{(i)},x^{(i)};\theta)}{Q_i(z^{(i)})}]=E_{z\sim Q_i}[log{P(x^{(i)}|z^{(i)};\theta)}]+E_{z\sim Q_i}[log\frac{P(z^{(i)})}{Q(z^{(i)})}]$

上面的拆分是根据 $P(x^{(i)}|z^{(i)})p(z^{(i)})=P(x^{(i)}z^{(i)})$

上面式子中的两项只有第一项是含有参数的(这里的 $Q_i(z^{(i)})\sim N(u_{z^{(i)}|x^{(i)}},\Sigma_{z^{(i)}|x^{(i)}})$ 但是这里的Q已经在E step计算出来固定了，因此不认为其存在参数)，因而只需要将第一项参数最大化即可

在M step中
$\max_{\Lambda}\sum_{i=1}^{m}E[logP(x^{(i)}|z^{(i)};\Lambda,\Psi,u)]$

上式子中的 $P(x^{(i)}|z^{(i)};\Lambda,\Psi,u)$ 的分布为 $x^{(i)}|z^{(i)}\sim N(u+\Lambda z^{(i)},\Psi)$

优化后为：
$\sum_{i=1}^{m}[constant-\frac{1}{2}(x^{(i)}-u-\Lambda z^{(i)})^T\Psi^{-1}(x^{(i)}-u-\Lambda z^{(i)})]$

对 $\Lambda$ 求导后得出：

$\Lambda=(\sum_{i=1}^{m}(x^{(i)}-u)E_{z^{(i)}\sim Q_i}[z^{(i)T}])(\sum_{i=1}^{m}E_{z^{(i)}\sim Q_i}[z^{(i)}z^{(i)T}])^{-1}$

这里的 $z^{(i)}\sim Q_i$

$E[z^{(i)T}]=u_{z^{(i)}|x^{(i)}}^T$

如果说 $z\sim N(u,\Sigma)$ ,那么 $\Sigma=Ezz^T-Ez(Ez)^T$ 进而有 $Ezz^T=\Sigma+Ez(Ez)^T$

因此第二项等于 $\Sigma_{z^{(i)}|x^{(i)}}+u_{z^{(i)}|x^{(i)}}u_{z^{(i)}|x^{(i)}}^T$

主成分分析

给定样本 ${x^{(1)},x^{(2)}.....x^{(m)}\}$ 样本是 $n$ 维向量，将其转换为 $k$ 维数据( $k < n$ )

在这里插入图片描述
上图中横轴标示开直升飞机的技术，纵轴标示开直升飞机的兴趣。其实这两者在一定程度上是相关的，我们可以将二维数据降维到一维子空间。上图中的 $u_1$ 就是我们想要找的方向，而 $u_2$ 可以被认为是噪音。

数据的预处理

计算 $u=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}$
中心化 $x^{(i)}\Rightarrow x^{(i)}=x^{(i)}-u$
计算数据的方差 $\sigma_j^2=\frac{1}{m}\sum_{i=1}^{m}(x_{j}^{(i)})^2$
标准化 $x_j^{(i)}=\frac{x_j^{(i)}}{\sigma_j}$

对数据进行标准化主要是去除数据单位不同带来的影响。

如果 $\|u\|=1$ ,那么向量 $x^{(i)}$ 投影到 $u$ 上，其长度为 $x^{(i)T}u$

在这里插入图片描述

如何找到我们想要的 $u$ ，首先要知道我们的目的是降低维度，降低维度并不能将数据信息大量丢失，因此我们我们需要找到一个方向使得数据投影到这个方向上数据特征尽量被保留即投影得到的点尽量分散。上面两个图明显第一个图是我们想要的，因为其保留了数据更多原有的特征。

选择 $u$

$\max_{\|u\|=1}\frac{1}{m}\sum_{i=1}^{m}(x^{(i)T}u)^2=\frac{1}{m}\sum_{i=1}^{m}u^Tx^{(i)}x^{(i)T}u=u^T[\frac{1}{m}\sum_{i=1}^{m}x^{(i)}x^{(i)T}]u$

我们知道如果 $Au=\lambda u$ 那么 $\lambda$ 被成为特征值而 $u$ 被称为 $A$ 的特征向量。根据上式可知 $u$ 是 $\Sigma=x^{(i)}x^{(i)T}$ 中的主特征向量。

$\max u^T\Sigma u$
$\|u\|=1$

因此有 $L(u,\lambda)=u^T\Sigma u-\lambda(u^Tu-1)$

对上式求导 $\bigtriangledown_{u}L=\Sigma u-\lambda u$ 令其等于0 $\Rightarrow \Sigma u=\lambda u$ ,那么 $u$ 就是 $\Sigma$ 的特征向量。

PCA有中解释可以理解为是寻找样本点到目标空间距离平方和最小的子空间。

如果说我们像将 $n$ 维数据投影到 $k$ 维空间我们需要选择 $\Sigma$ 的前 $k$ 个特征向量 $u_1,u_2,....u_k$ 。那么将这 $k$ 个特征向量重新表示数据就是 $y^{(i)}=u_1^Tx^{(i)}+u_2^Tx^{(i)}+....+u_k^Tx^{(i)}$