Generalized Power Method for Sparse Principal Component Analysis

最新推荐文章于 2021-03-17 09:28:45 发布

MTandHJ

最新推荐文章于 2021-03-17 09:28:45 发布

阅读量262

点赞数

分类专栏： PCA

本文链接：https://blog.csdn.net/MTandHJ/article/details/86573356

版权

PCA 专栏收录该内容

23 篇文章 2 订阅

订阅专栏

文章目录

Journee M, Nesterov Y, Richtarik P, et al. Generalized Power Method for Sparse Principal Component Analysis[J]. Journal of Machine Learning Research, 2010, 11(2): 517-553.

引

关于稀疏主成分，作者提了俩种收缩算法和俩种块方法，主要依赖 $\ell_0$ 和 $\ell_1$ 惩罚项. 主要思想是将通过求解优化问题，找到合适的 $P$ , 其中的元素为 ${0, 1\}$ , 即指示载荷向量那些部分应该非零. 然后再通过迭代求解合适的载荷向量，不过我觉得按照其理论，分明在求解 $P$ 的时候顺带也可以将载荷向量 $Z$ 也一并求得，可是却绕了一个弯，虽然也有其道理.

主要内容

收缩方法 $\ell_1$ 惩罚项

这部分，考虑的是如下的优化问题:
$\phi_{\ell_1}(\gamma) := \max_{z \in \mathcal{B}^n} \sqrt{z^T \Sigma z} - \gamma \|z\|_1,$
其中 $\Sigma=A^TA, A \in \R^{p \times n}$ ( $p$ 个样本, $n$ 为样本维度)为协方差矩阵，而 $\mathcal{B}^n = \{y \in \R^n | y^Ty \le 1 \}$ . 这个的意思蛮明显的，就是希望添加一个 $\ell_1$ 惩罚项，使得 $z$ 能够稀疏化，通过如下转化:
在这里插入图片描述
其中 $z_i'=\mathrm{sign}(a_i^Tx)z_i'$ .
（5）的推导是这也的，对于固定的 $z$ , $\|Az\|$ 为最优解，等式自然可得. 因为俩个 $\max$ 所代表的可行解域是一致的，所以可以交换位置.

如果固定 $x$ ，那么关于 $z$ 的最优解为:
在这里插入图片描述
如何思考呢，首先看(6), 我们要做的是分配 $z_i$ , 但是，为了最大化，显然 $(|a_i^Tx|-\gamma)\le 0$ 的部分是不配得到分配的，所以我们可以假设 $z_i,i=1,2,\ldots, n' \le n$ 非0, 利用拉格朗日乘子法:
$\max \quad \sum_{i=1}^{n'} t_i(|a_i^Tx|-\gamma)+\lambda (\sum_{i=1}^{n'}t_i^Tt_i - 1) \\$
其中 $t_i=|z_i|$ , 易证: $t_i=(\gamma - |a_i^Tx|) / 2\lambda$ , 所以 $z_i|$ 的大小和 $\gamma - |a_i^Tx|$ 成比例，(7)的结论不言而喻.

这样子，问题(6)就转换为下面的问题:
在这里插入图片描述
其中 $\mathcal{S}^p = \{y \in \R^p | y^Ty=1\}$ .

也就是说，最后这类问题的求解可以转化为，先通过问题(8)找到最优的 $x$ , 再利用(7)求解 $z$ . 但是，作者最后是通过(8)，找到 $x$ , 再通过 $|a_i^T x| - \gamma$ 判断 $z$ 中那些元素非零，再去掉 $\ell_1$ 惩罚项，再求解一次优化问题. 我真的很疑问，这个操作有必要吗，的确，听起来很合理，但是 $\ell_1$ 本身就具有稀疏化的特性，为何非要如此呢?

另外，需要指出， $\gamma$ 应当满足一些条件，不然可能导致 $|a_i^T x| < \gamma$ 对于所有的 $i$ 和 $x$ .

收缩方法 $\ell_0$ 惩罚项

考虑如下问题:
$\phi_{\ell_0} (\gamma) := \max_{z \in \mathcal{B}^n} z^T \Sigma z - \gamma \|z\|_0.$

可以转换为：
在这里插入图片描述
固定 $x$ , $z$ 的解为:

这个部分，二维( $n = 2$ )的情况是能够证明, 其它的时候不晓得该怎么证明.

如此，我们同样转化为求解关于 $x$ 的问题:
在这里插入图片描述

块方法 $\ell_0$ 惩罚项

直接给出公式和相应的转化了.

在这里插入图片描述
其中 $N$ 是一个对角矩阵，也可以做权重来理解, $\mathcal{S}_m^p = \{Y \in \R^{p \times m}| Y^TY=I_m \}$ , $[\mathcal{S}^n]^m=\{Y \in \R^{n \times m} | diag(Y^TY)=I_m\}$ .

在这里插入图片描述

块方法 $\ell_0$ 惩罚项

在这里插入图片描述

转换如下:
在这里插入图片描述

算法

在这里插入图片描述

求得 $P$ 后，作者考虑如下的问题:
在这里插入图片描述
并利用如下的算法求解：

MTandHJ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Generalized Power Method for Sparse Principal Component Analysis

文章目录重点算法这篇文章，看的晕晕的，但是被引用了400多次了，就简单地记一笔。这个东西，因为ℓ1\ell_1ℓ1范数，所以会稀疏化，当然，和γ\gammaγ有关。重点我想重点写的地方是下面这个改写：他们这些人都太会玩了。还有一些别的约束方法，比如ℓ0\ell_0ℓ0：这个问题不知道该怎么求解，接下来，把单一向量的求解扩展到了块求解，这里只做一个记号。算法...
复制链接

扫一扫