C2eg1-Principal Components Analysis

最新推荐文章于 2023-06-10 21:35:22 发布

issory

最新推荐文章于 2023-06-10 21:35:22 发布

阅读量93

点赞数

分类专栏： Deep Learning Note of Book

本文链接：https://blog.csdn.net/u011310345/article/details/83215024

版权

Deep Learning 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Note of Book

7 篇文章 0 订阅

订阅专栏

Suppose

$m$ points $\{\mathbf{x}^{(1)},\cdots,\mathbf{x}^{(m)}\} \in \mathbb{R}^n$
each point $\mathbf{x}^{(i)}\in \mathbb{R}^n$ corresponding to code vector $\mathbf{c}^{(i)}\in\mathbb{R}^l$
encode function: $f(\mathbf{x})=\mathbf{c}$
decode function: $x\approx g(f(\mathbf{x}))$

Definition

PCA is defined by our choice of the decoding function
decoding: $\mathbf{D}\in\mathbb{R}^{n\times l}$ , where $g(\mathbf{c})=\mathbf{Dc}$ .
constraints for simplify encoding problem: the columns of $\mathbf{D}$ must be orthogonal to each other.
In PCA, $L^2$ norm use to optimal code point $\mathbf{c}^*$ and the squaring operation for monotonically increasing
$\mathbf{c}^*=\arg\min\limits_{\mathbf{c}}\|\mathbf{x}-g(\mathbf{c})\|_2^2$

Solving

$\begin{matrix} \|\mathbf{x}-g(\mathbf{c})\|_2^2 &=& (\mathbf{x}-g(\mathbf{c}))^T(\mathbf{x}-g(\mathbf{c}))\\ &=&\mathbf{x}^T\mathbf{x}-\mathbf{x}^Tg(\mathbf{c})-g(\mathbf{c})^T\mathbf{x}+g(\mathbf{c})^Tg(\mathbf{c})\\ &=&\mathbf{x}^T\mathbf{x}-2\mathbf{x}^Tg(\mathbf{c})+g(\mathbf{c})^Tg(\mathbf{c}) \end{matrix}$
Simplify the problem with the orthogonality and unit norm constraints on $\mathbf{D}$ :
$\begin{matrix} \mathbf{c}^*&=&\arg\min\limits_{\mathbf{c}}\mathbf{x}^T\mathbf{x}-2\mathbf{x}^Tg(\mathbf{c})+g(\mathbf{c})^Tg(\mathbf{c})\\ &=&\arg\min\limits_{\mathbf{c}}-2\mathbf{x}^Tg(\mathbf{c})+g(\mathbf{c})^Tg(\mathbf{c})\\ &=&\arg\min\limits_{\mathbf{c}}-2\mathbf{x}^T\mathbf{Dc}+\mathbf{c}^T\mathbf{D}^T\mathbf{Dc}\\ &=&\arg\min\limits_{\mathbf{c}}-2\mathbf{x}^T\mathbf{Dc}+\mathbf{c}^T\mathbf{I}_l\mathbf{c}\\ &=&\arg\min\limits_{\mathbf{c}}-2\mathbf{x}^T\mathbf{Dc}+\mathbf{c}^T\mathbf{c} \end{matrix}$
Solve the optimization problem
$\begin{matrix} \nabla_{\mathbf{c}}(-2\mathbf{x}^T\mathbf{Dc}+\mathbf{c}^T\mathbf{c}) = 0\\ -2\mathbf{D}^T\mathbf{x}+2\mathbf{c} = 0\\ \mathbf{c}=\mathbf{D}^T\mathbf{x} \end{matrix}$
Get encode function
$f(x)=\mathbf{x}\mathbf{D}^T\mathbf{x}$
Get decode function
$r(\mathbf{x})=g(f(x))=\mathbf{D}\mathbf{D}^T\mathbf{x}$
Choose the encoding matrix $\mathbf{D}$
$\begin{matrix} \mathbf{D}^*=\arg\min\limits_{\mathbf{D}}\sqrt{\sum\limits_{i,j}(x_j^{(i)}-r(\mathbf{x}^{(i)})_j)^2}&\text{subject to}&\mathbf{D}^T\mathbf{D}=\mathbf{I}_l \end{matrix}$
Set $l = 1$ , $\mathbf{D}$ is a single vector $\mathbf{d}$
$\begin{matrix} \mathbf{d}^*=\arg\min\limits_{\mathbf{d}}\sum\limits_i\|\mathbf{x}^{(i)}-\mathbf{dd}^T\mathbf{x}^{(i)}\|_2^2&\text{subject to}&\|\mathbf{d}\|_2=1. \end{matrix}$
$\mathbf{d}^T\mathbf{x}^{(i)}$ is a value, namely $\mathbf{d}^T\mathbf{x}^{(i)}=\mathbf{x}^{(i)}\mathbf{d}^T$
$\begin{matrix} \mathbf{d}^*&=&\arg\min\limits_{\mathbf{d}}\sum\limits_i\|\mathbf{x}^{(i)}-\mathbf{dd}^T\mathbf{x}^{(i)}\|_2^2&&\\ &=&\arg\min\limits_{\mathbf{d}}\sum\limits_i\|\mathbf{x}^{(i)}-\mathbf{d}^T\mathbf{x}^{(i)}\mathbf{d}\|_2^2&&\\ &=&\arg\min\limits_{\mathbf{d}}\sum\limits_i\|\mathbf{x}^{(i)}-\mathbf{x}^{(i)T}\mathbf{dd}\|_2^2&\text{subject to}&\|\mathbf{d}\|_2=1\\ &=&\arg\min\limits_{\mathbf{d}}\|\mathbf{X}-\mathbf{Xdd}^T\|_F^2&\text{subject to}&\mathbf{d}^T\mathbf{d}=1 \end{matrix}$
Solving the optimization problem of $\mathbf{d}$
$\begin{matrix} \arg\min\limits_{\mathbf{d}}\|\mathbf{X}-\mathbf{Xdd}^T\|_F^2&=&\arg\min\limits_{\mathbf{d}}\text{Tr}\big((\mathbf{X}-\mathbf{Xdd}^T)^T(\mathbf{X}-\mathbf{Xdd}^T)\big)\\ &=&\arg\min\limits_{\mathbf{d}}\text{Tr}(\mathbf{X}^T\mathbf{X}-\mathbf{X}^T\mathbf{Xdd}^T-\mathbf{dd}^T\mathbf{X}^T\mathbf{X}+\mathbf{dd}^T\mathbf{X}^T\mathbf{Xdd}^T)\\ &=&\arg\min\limits_{\mathbf{d}}\text{Tr}(\mathbf{X}^T\mathbf{X})-\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)-\text{Tr}(\mathbf{dd}^T\mathbf{X}^T\mathbf{X})+\text{Tr}(\mathbf{dd}^T\mathbf{X}^T\mathbf{Xdd}^T)\\ &=&\arg\min\limits_{\mathbf{d}}-\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)-\text{Tr}(\mathbf{dd}^T\mathbf{X}^T\mathbf{X})+\text{Tr}(\mathbf{dd}^T\mathbf{X}^T\mathbf{Xdd}^T)\\ &=&\arg\min\limits_{\mathbf{d}}-2\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)+\text{Tr}(\mathbf{dd}^T\mathbf{X}^T\mathbf{Xdd}^T)\\ &=&\arg\min\limits_{\mathbf{d}}-2\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)+\text{Tr}(\mathbf{X}^T\mathbf{Xdd}\mathbf{dd}^T)\\ \end{matrix}$
Compute with constraint condition
$\begin{matrix} &\arg\min\limits_{\mathbf{d}}-2\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)+\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T\mathbf{dd}^T)&\text{subject to}&\mathbf{d}^T\mathbf{d}=1\\ =&\arg\min\limits_{\mathbf{d}}-2\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)+\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)&\text{subject to}&\mathbf{d}^T\mathbf{d}=1\\ =&\arg\min\limits_{\mathbf{d}}-\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)&\text{subject to}&\mathbf{d}^T\mathbf{d}=1\\ =&\arg\max\limits_{\mathbf{d}}\text{Tr}(\mathbf{X}^T\mathbf{Xdd}^T)&\text{subject to}&\mathbf{d}^T\mathbf{d}=1\\ =&\arg\max\limits_{\mathbf{d}}\text{Tr}(\mathbf{d}^T\mathbf{X}^T\mathbf{Xd})&\text{subject to}&\mathbf{d}^T\mathbf{d}=1\\ \end{matrix}$
Set $\mathbf{X}^T\mathbf{X}$ as $\mathbf{A}$ , then the optimal $\mathbf{d}$ is given by the eigenvector of $\mathbf{A}$ corresponding to the largest eigenvalue