有趣有用的PCA——PCA压缩图片

生信了（公众号同名）

已于 2022-03-24 08:20:13 修改

阅读量8.7k

点赞数 16

分类专栏： # 数据算法文章标签：线性代数机器学习

于 2021-10-03 10:32:59 首次发布

本文链接：https://blog.csdn.net/biocity/article/details/120589193

版权

PCA是数据降维的经典方法，本文给出了一个将PCA用于图片压缩的例子，并探索了标准化处理（normalization）对PCA的影响。文末还讨论了PCA推导第一主成分的过程。

PCA (Principal component analysis，主成分分析) 是一个经典的数据降维方法，可以将高维数据映射到低维空间中，使得低维空间中点在新坐标轴（主成分）上的坐标间方差尽可能大。PCA被广泛应用于各行各业的数据分析，其中当然也包括生物数据的分析。

讲解PCA的文章数不胜数，本文旨在作为一个学习笔记，不对PCA的原理和应用作过多重复的介绍；而是先给出一个将PCA用于图片压缩的例子，从而能够直观地感受PCA的效果；然后结合这个例子对PCA的推导做一些讨论。

PCA压缩灰度图片

我们可以将图片看作是一个 $\times p$ （灰度空间）或者 $\times p \times 3$ （RGB空间）的数组。以灰度图片为例，可以利用PCA将 $\times p$ 的矩阵降维成 $\times l$ （ $l < p$ ）的矩阵，从而达到图片压缩的效果。

我们选择经典图片Lenna作展示 [来源参考附录六]，Lenna图片的大小是 $512 \times 512$ 。在这个例子中，我们首先将彩色的图片转化为灰度图片。
在这里插入图片描述
（灰度原图）

我们看看在降维之前先对数据进行标准化（normalization）处理的话，会有怎样的结果 [代码见附录二]。所谓标准化处理，做过PCA的朋友应该很熟悉，就是将矩阵的每一列的数据进行缩放，使得每一列的平均值是0，标准差是1。

这里的 $k$ 就是保留多少个主成分。
在这里插入图片描述
（灰度效果图一）

如果降维前不做标准化处理，结果是这样的 [代码见附录三]。

（灰度效果图二）

很明显地，无论做不做标准化处理，保留的主成分越多，重建的图片越清晰。对于作标准化处理的情形，当我们保留50个主成分的时候，重建的图片已经有一个比较高的清晰度了，此时降维后数据大概是原数据大小的20% [附录一]。同时，比较上面两幅效果图，我们可以看出：降维前进行标准化处理对PCA效果有明显的提升。

PCA压缩RGB图片

当然，我们也可以直接对彩色图片进行压缩（降维）。
在这里插入图片描述
（彩色原图）

同样地，如果降维前作标准化处理，结果是这样的 [代码见附录四]。这里的 $k$ 依然是保留多少个主成分。
在这里插入图片描述
（彩色效果图一）

如果降维前不作标准化处理，结果是这样的 [代码见附录五]。
在这里插入图片描述
（彩色效果图二）

彩色图片压缩与灰度图片压缩类似，无论做不做标准化处理，保留的主成分越多，重建的图片越清晰。对于作标准化处理的情形，当我们保留50个主成分的时候，重建的图片已经有一个比较高的清晰度了，此时降维后数据大概是原数据大小的13% [附录一]。同时，比较上面两幅效果图，我们可以看出：降维前进行标准化处理对PCA效果有明显的提升。

PCA推导第一主成分

上面两小节中，我们了解了降维前对数据进行标准化处理是很重要的。那么，这个是不是可以在PCA的推导过程中体现出来呢？

对于一个 $\times p$ 的矩阵 $\mathbf{A}$ ，可以看作是 $n$ 个样本， $p$ 个特征（feature）。对于生物数据而言，样本数量一般都是远小于特征数量的，也就是说 $\ll p$ 。自然地，我们希望降低特征的数量，将 $\times p$ 的矩阵降维到 $\times l$ （ $l < p$ ）的新矩阵 $\mathbf{T}$ ，并且让低维空间中的数据尽量继承原始数据中的方差，这样低维空间中的点也可以尽可能分得开。这个从高维到低维的映射过程可以通过 $l$ 个 $p$ 维向量完成。这 $l$ 个 $p$ 维向量也就是我们通常所说的主成分（低维空间中新的坐标轴）。

首先我们来看看如何找第一个主成分。假设这里的矩阵 $\mathbf{A}$ 已经经过标准化处理，也就是说矩阵 $\mathbf{A}$ 每一列的平均值是0，标准差是1。我们的目标是找到一个 $p$ 维单位向量 $\mathbf{w_1}$ ，使得原来矩阵 $\mathbf{A}$ 的 $n$ 个 $p$ 维向量 $\mathbf{a}_i, i=1,2,\ldots,n$ 在这个主成分上的得分（坐标） $t_i,i=1,2,\ldots,n$ 之间的方差最大。这里不用单位向量也可以，我们的目标是找到一个新的 $p$ 维向量作为新坐标轴，用单位向量可以简化运算。我们知道一个向量 $\mathbf{a}_i$ 在单位向量 $\mathbf{w_1}$ 上的坐标是 $\mathbf{a}_i \cdot \mathbf{w_1}$ ，也就是说， $t_i = \mathbf{a}_i \cdot \mathbf{w_1}$ 。

也就是说，我们要找的第一主成分 $\mathbf{w_1}$ 就是
$\begin{aligned} \displaystyle \mathbf{w_1} &= \mathop{\arg\max}\limits_{\mathbf{w}} \sum_{i=1}^{n} (t_i - \bar{t})^2 \qquad \qquad \text{(1)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \sum_{i=1}^{n} {t_i}^2 \qquad \qquad \qquad \ \text{(2)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \sum_{i=1}^{n} (\mathbf{a}_i \cdot \mathbf{w})^2 \qquad \quad \ \ \ \text{(3)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \|\mathbf{A}\mathbf{w}\|^2 \qquad \qquad \quad \ \ \, \text{(4)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \mathbf{w}^{\rm{T}}\mathbf{A}^{\rm{T}}\mathbf{A}\mathbf{w} \qquad \qquad \ \text{(5)} \\ &= \mathbf{q}_1 \qquad \qquad \qquad \qquad \qquad \quad \ \, \text{(6)} \end{aligned}$

最低0.47元/天解锁文章

生信了（公众号同名）

关注

16
点赞
踩
122

收藏

觉得还不错? 一键收藏
5
评论
有趣有用的PCA——PCA压缩图片

PCA是数据降维的经典方法，本文给出了一个将PCA用于图片压缩的例子，并探索了标准化处理（normalization）对PCA的影响。文末还讨论了PCA推导第一主成分的过程。PCA (Principal component analysis，主成分分析) 是一个经典的数据降维方法，可以将高维数据映射到低维空间中，使得低维空间中点在新坐标轴（主成分）上的坐标间方差尽可能大。PCA被广泛应用于各行各业的数据分析，其中当然也包括生物数据的分析。讲解PCA的文章数不胜数，本文旨在作为一个学习笔记，不对PCA.
复制链接

扫一扫

专栏目录