（《机器学习》完整版系列）第10章降维与度量学习——10.6 图像压缩（图像坐标x压缩成了坐标z么？错！）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129584962

利用主成分分析算法（PCA）可以进行图像压缩（准确的说法应该是“图像数据压缩”）。
将 $\boldsymbol{x}$ 降维成 $\hat{\boldsymbol{z}}$ 后，通常是基于 $\hat{\boldsymbol{z}}$ 继续后续的任务（存储、通信等环节），当然，若想从 $\hat{\boldsymbol{z}}$ 绘出图片，则需要恢复 $\boldsymbol{x}$ （参见第11章的恢复方法，压缩是有损的），再由 $\boldsymbol{x}$ 绘出图片，即 $\boldsymbol{x}$ 与 $\hat{\boldsymbol{z}}$ 表示同一张图片，反过来说：它们是同一张图片的两种数据表示
变换式并不表明：图像坐标点 $\boldsymbol{x}$ 压缩成了新的图像坐标点 $\hat{\boldsymbol{z}}$ ，因为， $\hat{\boldsymbol{z}}$ 的维度为 $d^{'}$ ，并不能依扫描生成图像，许多同学在这里弄错了。

图像压缩

彩色图像可视为多通道，所以仅需考虑单通道，即灰度矩形图片。设图片像素为 $l\times s$ ，将图像进行向量化：定义一种对图片扫描的次序，变一个二维图像为一组一维数据（向量），如，“先横后直”（注：你也可以定义其他扫描方式，如，“先直后横”，“平行于某对角线扫”，“绕中心转圈”，等等方式，总之，规定次序每点取值一次），则得到向量
$\begin{align} \boldsymbol{x}=(x^1;x^2;\cdots ;x^l;x^{l+1};\cdots ;x^{l\times s}) \tag{10.62} \end{align}$
其中， $x^k$ 为图像在第 $k$ 个扫描点的灰度，向量 $\boldsymbol{x}$ 的维度为 $d=l\times s$ 。
再将向量 $\boldsymbol{x}$ 中心化，为方便不妨设向量 $\boldsymbol{x}$ 已中心化，即现在有 $\sum_{k=1}^dx^k=0$ 。

考虑某类图像（如，人脸）的样本空间，对其应用主成分分析算法（PCA）。

设有该类图像的一个图片集（作为训练集） $\{\boldsymbol{x}_i\}_{i=1}^m$ ，以图片向量为列，形成图片集的矩阵 $\mathbf{X}$ ，将其协方差按PCA方式进行分解
$\begin{align} \mathbf{X}\mathbf{X}^{\mathrm{T}} & =\mathbf{W}\boldsymbol{\Lambda }\mathbf{W}^{\mathrm{T}}\notag \\ & =(\hat{\mathbf{W}},*) \begin{pmatrix} \hat{\boldsymbol{\Lambda }} & 0 \\ 0 & * \end{pmatrix} (\hat{\mathbf{W}},*)^{\mathrm{T}}\notag \\ & \approx (\hat{\mathbf{W}},*) \begin{pmatrix} \hat{\boldsymbol{\Lambda }} & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} \hat{\mathbf{W}}^{\mathrm{T}} \\ * \end{pmatrix}\notag \\ & =\hat{\mathbf{W}}\hat{\boldsymbol{\Lambda }}\hat{\mathbf{W}}^{\mathrm{T}} \tag{10.63} \end{align}$
其中， $\mathbf{W}$ 中的列向量（特征向量）与 $\boldsymbol{\Lambda }$ 中的对角线（特征值）已按PCA的要求排序； $\hat{\boldsymbol{\Lambda }}$ 为保留的前 $d^{'}$ 个最大的特征值形成的 $d'\times d'$ 矩阵，“ $*$ ”为我们不关心的部分。

有了 $\hat{\mathbf{W}}$ ，对于训练集中的图片或新图片（ $d$ 维向量 $\boldsymbol{x}$ ）通过变换式(10.64)得到对应的 $d^{'}$ 维向量 $\hat{\boldsymbol{z}}$ ：
$\begin{align} \hat{\boldsymbol{z}}=\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x} \tag{10.64} \end{align}$
以向量 $\hat{\boldsymbol{z}}$ 替代向量 $\boldsymbol{x}$ ，从而实现了降维。

现在，我们集中看一看各矩阵的维： $\mathbf{X}$ 为 $d\times m$ ， $\mathbf{W}$ 为 $d\times d$ ， $\boldsymbol{\Lambda}$ 为 $d\times d$ ， $\hat{\boldsymbol{\Lambda }}$ 为 $d'\times d'$ ， $\hat{\mathbf{W}}$ 为 $d\times d'$ ， $\boldsymbol{x}$ 为 $d\times 1$ ， $\hat{\boldsymbol{z}}$ 为 $d'\times 1$ 。

因 $d=l\times s$ ，任何 $d$ 维的向量，依原定义的扫描次序，反过来即可从 $d$ 维向量获得像素为 $l\times s$ 的图像。

综上可知：

（1） ${\mathbf{W}}$ 的每列（即协方差的特征值）均可以得到一个 $l\times s$ 的图像，每个图像视为训练集（原图片集）的某个特征的可视化；当然， $\hat{\mathbf{W}}$ 就可得到 $d^{'}$ 个 $l\times s$ 的图像，即由图片集 $\mathbf{X}$ 通过PCA可得到其“主特征”图像集 $\hat{\mathbf{W}}$ 。

（2）式(10.64)并不表明：图像 $\boldsymbol{x}$ 压缩成了图像 $\hat{\boldsymbol{z}}$ ，因为， $\hat{\boldsymbol{z}}$ 的维度为 $d^{'}$ ，并不能依扫描生成图像，许多同学在这里弄错了。

（3）存储 $\boldsymbol{x}$ 需要长度为 $d=l\times s$ 的数组（通常很大），而存储 $\hat{\boldsymbol{z}}$ 仅需要长度为 $d^{'}$ 的数组，通常 $\ll d$ ，这在存储、通信等环节起到了数据压缩的效果。

（4）通过式(10.64)将 $\boldsymbol{x}$ 降维成 $\hat{\boldsymbol{z}}$ 后，通常是基于 $\hat{\boldsymbol{z}}$ 继续后续的任务，当然，若想从 $\hat{\boldsymbol{z}}$ 绘出图片，则需要通过式(10.64)恢复 $\boldsymbol{x}$ （参见第11章的恢复方法，压缩是有损的），再由 $\boldsymbol{x}$ 绘出图片，即 $\boldsymbol{x}$ 与 $\hat{\boldsymbol{z}}$ 表示同一张图片，反过来说：它们是同一张图片的两种数据表示，由图片扫描直接得到 $\boldsymbol{x}$ ，再由式(10.64)得到其低维表示 $\hat{\boldsymbol{z}}$ 。