奇异值分解在图形压缩中的应用

蒋志昂

已于 2024-01-11 18:34:22 修改

阅读量1.3k

点赞数 22

分类专栏：线性代数文章标签：线性代数

于 2024-01-11 17:00:34 首次发布

本文链接：https://blog.csdn.net/GenshiN__IMPACt_/article/details/135514058

版权

线性代数专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了奇异值分解在图形压缩中的应用，通过分离RGB通道，对每个通道进行SVD并按比例选取奇异值进行压缩，展示了不同压缩率下图像质量的变化，表明SVD在图像数据压缩中具有显著效果。

摘要由CSDN通过智能技术生成

奇异值分解在图形压缩中的应用

在研究奇异值分解的工程应用之前，我们得明白什么是奇异值？什么是奇异向量？

奇异值与奇异向量

概念：奇异值描述了矩阵在一组特定向量上的行为，奇异向量描述了其最大的作用方向。

奇异值分解(SVD)

矩阵A的分解涉及一个 $\times n$ 的矩阵 $\Sigma$ ,其中 $\Sigma$ = $\begin{bmatrix} D &0\\0&0\end{bmatrix}$ ,D是一个 $r\times r$ 的方阵 $\leq m , r\leq n)$

定理：设A是秩为 $r$ 的 $m\times n$ 的矩阵，那么存在一个类似于 $\Sigma$ 的矩阵，其中 $D$ 的对角线元素是 $A$ 的前 $r$ 个奇异值， $\sigma_1 \geq\sigma_2 \geq\sigma_3 \geq... \geq\sigma_r>0$ 并且存在一个 $m\times m$ 的正交矩阵 $U$ 和一个 $n\times n$ 的正交矩阵 $V^T$ 使得 $A=U\Sigma V^T$

奇异值分解计算过程

我们先假设一个矩阵 $\begin{bmatrix} 2 & 3 \\ \ 0 & 2\end{bmatrix}$
设 $U=[u_1 u_2 u_3 ...]$ , $\sum = diag[\sigma_1 \sigma_2 \sigma_3 ...]$ , $V=\begin{bmatrix} v_1 \\ v_2\\ v_3 \\ ...\end{bmatrix}^T$
其中 $U$ 代表A的正交矩阵； $\sum$ 代表A的由奇异值组成的左奇异向量矩阵； $V$ 代表A的右奇异向量矩阵。

求A的 $\sum , V$ .

计算 $A^TA$
$A^TA =\begin{bmatrix} 2&0\\3&2 \end{bmatrix} \begin{bmatrix} 2&3\\0&2\end{bmatrix}= \begin{bmatrix} 13&6\\6&4 \end{bmatrix}$
计算 $A^TA$ 的奇异值 $\sigma$
$\sigma_1^2\sigma_2^2 = det A^TA = 16 \\ \sigma_1^2 + \sigma_2^2 = tr A^TA = 17 \\ \therefore \sigma_1^2 =16, \sigma_2^2= 1\\ \therefore \sigma_1 =4, \sigma_2= 1\\ \therefore \Sigma=\begin{bmatrix} 4&0\\0&1 \end{bmatrix}$
将 $\sigma_1,\sigma_2$ 带入 $A^TA$ 中求其特征向量
$\\ v_1= \begin{bmatrix} \frac{1}{\sqrt5} \\\\ \frac{2}{\sqrt5} \end{bmatrix} , v_2= \begin{bmatrix} -\frac{2}{\sqrt5}\\\\\frac{1}{\sqrt5} \end{bmatrix} \\\therefore V= \begin{bmatrix} \frac{1}{\sqrt5}&-\frac{2}{\sqrt5} \\\\ \frac{2}{\sqrt5}&\frac{1}{\sqrt5}\end{bmatrix}$
构造标准正交向量
$u_i=\frac{1}{\sigma_i}Av_i \\ \therefore u_1=\frac{1}{\sigma_1}Av_1=\frac{1}{4}\begin{bmatrix} 2&3\\\\0&2\end {bmatrix} \begin{bmatrix} \frac{1}{\sqrt5} \\\\ \frac{2}{\sqrt5} \end{bmatrix} =\begin{bmatrix} \frac{2}{\sqrt5}\\ \\ \frac{1}{\sqrt5} \end {bmatrix} \\ \therefore u_2=\frac{1}{\sigma_2}Av_2=\frac{1}{1}\begin{bmatrix} 2&3\\\\0&2\end {bmatrix} \begin{bmatrix} - \frac{2}{\sqrt5} \\\\ \frac{1}{\sqrt5} \end{bmatrix} =\begin{bmatrix} -\frac{1}{\sqrt5}\\ \\ \frac{2}{\sqrt5} \end {bmatrix} \\ \therefore U=(u_1,u_2)=\begin{bmatrix} \frac{2}{\sqrt5} & -\frac{1}{\sqrt5} \\ \\ \frac{1}{\sqrt5} &\frac{2}{\sqrt5} \end{bmatrix}$
写出表达式
$A=U\Sigma V^T=\begin{bmatrix} \frac{2}{\sqrt5} & -\frac{1}{\sqrt5} \\ \\ \frac{1}{\sqrt5} &\frac{2}{\sqrt5} \end{bmatrix} \begin{bmatrix} 4 & 0 \\\\ \ 0 & 1\end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt5}& \frac{2}{\sqrt5}\\\\ -\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\end{bmatrix}$

利用奇异值分解（SVD）进行图片压缩

首先我们先找一张图片来进行实验。
请添加图片描述

通道分离

对于JPG格式的彩色图片，拥有3个颜色通道，R(红)、G(绿)、B(蓝)，那么可以尝试将每个颜色通道进行分离，产生3个形状均为图像高 x 宽的单通道剧展，即imageR，imageG，imageB。

进行通道分离，将imageArray数组中的每个通道分别单独取出来，得到3个高 $\times$ 宽的二维数组。这3个二维数组中每个位置上的取值就是对应像素的某个颜色通道的取值，代码如下：

import numpy as np
from PIL import Image
 
originalImage = Image.open(r'teriri.jpg', 'r')
imageArray = np.array(originalImage)
R = imageArray[:, :, 0]
G = imageArray[:, :, 1]
B = imageArray[:, :, 2]
print(R)
print(G)
print(B)

运行结果如下：

[[207 207 207 … 141 141 141]
[207 207 207 … 141 141 141]
[207 207 207 … 141 141 141]
…
[246 247 248 … 239 239 239]
[246 247 248 … 239 239 239]
[246 247 248 … 239 239 239]]
[[198 198 198 … 126 126 126]
[198 198 198 … 126 126 126]
[198 198 198 … 126 126 126]
…
[233 234 235 … 235 235 235]
[233 234 235 … 235 235 235]
[233 234 235 … 235 235 235]]
[[215 215 215 … 149 147 147]
[215 215 215 … 149 147 147]
[215 215 215 … 149 147 147]
…
[230 231 233 … 203 203 203]
[230 231 233 … 203 203 203]
[230 231 233 … 203 203 203]]

至此，我们成功得到了3个二维ndarray数组，将R、G、B三个通道成功进行了分离。

矩阵压缩

对每个单通道矩阵进行奇异值分解，按照压缩的实际需要取前k个奇异值，进行3个单通道的矩阵的压缩，最后分别形成3个压缩后的矩阵：imageRC，imageGC，imageBC，代码如下：

def imgCompress(channel,percent):
    U,sigma,V_T = np.linalg.svd(channel)
    m = U.shape[0]
    n = V_T.shape[0]
    reChannel = np.zeros((m,n))
    for k in range (len(sigma)):
        reChannel = reChannel + sigma[k] * np.dot(U[:,k].reshape(m,1),V_T[k,:].reshape(1,n))
        if float(k) / len(sigma) > percent:
            reChannel[reChannel < 0] = 0
            reChannel[reChannel > 255] = 255
            break
        return np.rint(reChannel).astype("unit8")

图像重建

将经过奇异值分解处理的3个单通道矩阵合并，从而重构出压缩后的彩色图像。

    for p in [0.001, 0.005, 0.01, 0.02, 0.03, 0.04, 0.05, 
              0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]:
    #p表示取所有奇异值的前多少比例
        reR = imgCompress(R,p)
        reG = imgCompress(G,p)
        reB = imgCompress(B,p)
        reI = np.stack((reR,reG,reB),2)
        Image.fromarray(reI).save("{}".format(p)+"img.png")