从PCA和SVD的关系拾遗

最新推荐文章于 2025-03-22 10:01:31 发布

Dark_Scope

最新推荐文章于 2025-03-22 10:01:31 发布

阅读量4.2w

点赞数 42

本文链接：https://blog.csdn.net/Dark_Scope/article/details/53150883

版权

机器学习专栏收录该内容

47 篇文章

订阅专栏

从PCA和SVD的关系拾遗

最近突然看到一个问题，PCA和SVD有什么关系？隐约记得自己照猫画虎实现的时候PCA的时候明明用到了SVD啊，但SVD（奇异值分解）和PCA的（特征值分解）貌似差得相当远，由此钻下去搜集了一些资料，把我的一些收获总结一下，以免以后再忘记。

PCA的简单推导

PCA有两种通俗易懂的解释，1)是最大化投影后数据的方差(让数据更分散)；2)是最小化投影造成的损失。这两个思路最后都能推导出同样的结果。
下图应该是对PCA第二种解释展示得最好的一张图片了(ref:svd,pca,relation)
此处输入图片的描述
图示的数据都已经去中心化了（中心点为原点），这一步操作可以简单地通过 $x_i=x_i-\bar{x}$ 来达到，其中 $\bar{x}$ 是样本的均值，为方便表示，后文的 $x$ 都是去中心化后的结果。
可以看到PCA所谓的降维操作就是找到一个新的坐标系（旋转的两条直线式垂直的，我们可以用一组标准正交基 $\{u_j\},\small{j=1,...,n}$ 来指示），然后减掉其中一些维度，使误差足够小。
假设我们要找的投影方向是 $u_j$ ( $u_j$ 是单位向量,即 $u_j^Tu_j=1$ ) ,点 $x_i$ 在该方向上的投影就是 $({x_i^T}u_j)u_j$ ，减掉这个维度造成的误差为：

J j = 1 m \sum i = 1 m (x T i u j) 2 = 1 m (x T u j) 2 = 1 m (x T u j) T (x T u j) = 1 m u T j x x T u j

$\begin{align} J_j &=\frac1m \sum\limits_{i=1}^{m}(x_i^Tu_j)^2 \\ &=\frac1m(x^Tu_j)^2\\ &=\frac1m(x^Tu_j)^T(x^Tu_j)\\ &=\frac1mu_j^Txx^Tu_j \end{align}$
将

1mxxT $\frac1mxx^T$ 记作

S $S$ ，假设我们要减去t个维度，则需要最小化

J = \sum j = n - t n u T j S u j s . t . u T j u j = 1

$\begin{align} J=\sum\limits_{j=n-t}^{n}u_j^TSu_j\\ s.t. u_j^Tu_j=1 \end{align}$

此时使用拉格朗日乘子法使得

J ~ = \sum j = n - t n u T j S u j + λ j (1 - u T j u j)

$\tilde{J} = \sum\limits_{j=n-t}^{n}u_j^TSu_j+\lambda_j(1-u_j^Tu_j)$
最小化上式子，求导有

δ J ~ δ u j = S u j - λ j u j

$\frac{\delta\tilde{J}}{\delta{u_j}}=Su_j-\lambda_ju_j$
使其为0则得到

S u j = λ j u j

$Su_j=\lambda_ju_j$
这是标准的特征值的定义，

λj $\lambda_j$ 就是特征值，

uj $u_j$ 是对应的特征向量，所以对

S $S$ 进行特征值分解就可求得解，将上式带回到原始的 $J$ 中，可得
$J = \sum j = n - t n u T j S u j = \sum j = n - t n u T j λ j u j = \sum j = n - t n λ j$ $\begin{align} J&=\sum\limits_{j=n-t}^{n}u_j^TSu_j\\ &= \sum\limits_{j=n-t}^{n}u_j^T\lambda_ju_j\\ &= \sum\limits_{j=n-t}^{n}\lambda_j \end{align}$
所以要使J最小，就去掉变换后维度中最小的t个特征值对应的维度就好了。
现在，我们再回过头看PCA的流程，就会发现一切都对应上了：

对数据去中心化
计算 $XX^T$ ，注:这里除或不除样本数量 $M$ 或 $M-1$ 其实对求出的特征向量没影响
对 $XX^T$ 进行特征分解
选取特征值最大的几个维度进行数据映射。（去掉较小的维度）

遗留问题

看到这有人要问了，我咋记得标准流程是计算矩阵的协方差矩阵呢？
我们来看协方差矩阵的计算公式：

$Σ = E [(x - E [x]) (x - E [x]) ⊤]$ $\Sigma=\mathrm{E} \left[ \left( \textbf{x} - \mathrm{E}[\textbf{x}] \right) \left( \textbf{x} - \mathrm{E}[\textbf{x}] \right)^\top \right]$
一开始我们的去中心化步骤其实就是计算了 $\left( \textbf{x} - \mathrm{E}[\textbf{x}]\right)$ ，然后 $S=\frac1mxx^T$ 其实就是协方差矩阵，注意这里取的 $\frac1m$ ，实际操作中，应该是 $\frac1{m-1}$ ，才是标准的协方差矩阵， 但这对最后找到的特征向量没有影响，对特征值之间的大小关系也没有影响。
所以到这一步标准的流程是（ 为了实现方便，下面代码中的矩阵 $X$ 与其实是上面推导中的 $X^T$ ,每一行是一个样本，同时从这里开始的推导使用与代码一致的表示方法）：

def pca_01(X): covMat = np.cov(X,rowvar = 0) eigVal,eigVec = sp.linalg.eig(covMat) #do reduction with eigVal,eigVec

但因为最后用于变换的矩阵需要是去中心化后的，所以有些地方的实现是：

def pca_02(X): mean_ = np.mean(X, axis=0) X = X - mean_ covMat = np.cov(X,rowvar = 0)#实际上是否去中心化对求到的协方差矩阵并无影响,只是方便后面进行降维 eigVal,eigVec = sp.linalg.eig(covMat) #do reduction with eigVal,eigVec

使用矩阵乘法的方式：

def pca_03(X): mean_ = np.mean(X, axis=0) X = X - mean_ M,N=X.shape Sigma=np.dot(X.transpose(),X)/(M-1) eigVal,eigVec = sp.linalg.eig(Sigma) #do reduction with eigVal,eigVec

这跟SVD有啥关系？

一开始说到隐约记得当时时间PCA的时候用到了SVD，但通过上面的推到我们发现需要的是特征值分解，这又是怎么回事呢？
首先来看SVD的解释：奇异值分解

${\displaystyle X=U\Sigma V^{*},\,} \,$
其中U是m×m阶酉矩阵；Σ是m×n阶非负实数对角矩阵；而V*，即V的共轭转置，是n×n阶酉矩阵。这样的分解就称作X的奇异值分解

并且：

在矩阵M的奇异值分解中
${\displaystyle X=U\Sigma V^{*},\,} \,$
1. $V$ 的列（columns）组成一套对 $X\,$ 的正交”输入”或”分析”的基向量。这些向量是 ${ X^{T}X}$ 的特征向量。
2. $U$ 的列（columns）组成一套对 $X\,$ 的正交”输出”的基向量。这些向量是 ${ XX^{T}}$ 的特征向量。
3. $Σ$ 对角线上的元素是奇异值，可视为是在输入与输出间进行的标量的”膨胀控制”。这些是 ${ XX^{T}}$ 及 ${ X^{T}X}$ 的特征值的非零平方根，并与U和V的行向量相对应。

我们看到了熟悉的”特征向量”,还是 ${ X^{T}X}$ 和 ${ XX^{T}}$ 的，毫无疑问这个的结果能直接用于PCA降维。
上面这几句话都是可以推导出来的，在展开之前我们看两段代码，表示了SVD在PCA中两种不同用法：

def pca_04(X): mean_ = np.mean(X, axis=0) X = X - mean_ M,N=X.shape Sigma=np.dot(X.transpose(),X) #这里直接去掉/(M-1)方便和pca_05比较，对求得特征向量无影响 U,S,V = sp.linalg.svd(Sigma); eigVal,eigVec = S,U #do reduction with eigVal,eigVec

可以看到在pca_03的基础上我们把sp.linalg.eig改用了sp.linalg.svd，这涉及到：
结论1：协方差矩阵（或 $X^TX$ ）的奇异值分解结果和特征值分解结果一致。

def pca_05(X): mean_ = np.mean(X, axis=0) X = X - mean_ U, S, V = sp.linalg.svd(X) eigVal,eigVec = S,V #do reduction with eigVal,eigVec

我们直接使用了去中心化后的SVD分解结果用于PCA降维，也是正确的，因为：
结论2： $V$ 的列（columns）组成一套对 $X\,$ 的正交”输入”或”分析”的基向量。这些向量是 ${ X^{T}X}$ 的特征向量。

首先我们需要推导出结论2：

根据奇异值分解的定义：

$X = U Σ V T$ $\begin{equation} X = U\Sigma V^T \end{equation}$
则
$X T X = V Σ U T U Σ V T = V Σ 2 V T = V Σ 2 V - 1$ $\begin{align} X^TX &= V\Sigma U^T U\Sigma V^T \\ &=V\Sigma^2V^T\\ &=V\Sigma^2V^{-1} \end{align}$
$\Sigma$ 是对角矩阵，U是标准正交基（酉矩阵），V是标准正交基（ $VV^T=I;V=V^{-1}$ ）
而又有 $X^TX$ 是一个对称的半正定矩阵,它可以通过特征值分解为（ $\Lambda$ 是对角化特征值， $Q$ 是特征向量）：
$X T X = Q Λ Q - 1$ $\begin{align} X^TX&=Q\Lambda{Q^{-1}} \end{align}$
可以看到上下两个形式保持了一致，当限定了特征值的顺序后，这样的组合是唯一的，所以 结论2是成立的： $V$ 是 $X^TX$ 的特征向量，奇异值和特征值是平方关系
$V = Q Λ = Σ 2$ $V=Q\\ \Lambda=\Sigma^2$
奇异值和特征值的平方关系这个结论可以通过运行pca_04和pca_05验证：

PCA_04:
eigVal：[ 21.60311815 8.77188185]
eigVec： [[-0.88734696 -0.46110235]
[-0.46110235 0.88734696]]

PCA_05:
eigVal：[ 4.64791546 2.96173629]
eigVec： [[ 0.88734696 0.46110235]
[-0.46110235 0.88734696]]
#注意PCA_05结果中特征向量维度的符号，和上面不太一样，但这不影响降维的功能，每一列是一组基

对于结论一：

我们对 $X^TX$ 进行SVD分解(为了加以区分，下标为2)：

$X T X = U 2 Σ 2 V T 2$ $X^TX = U_2\Sigma_2V_2^T$
由于SVD分解的性质中的第二条

$U$ 的列（columns）组成一套对 $X\,$ 的正交”输出”的基向量。这些向量是 ${ XX^{T}}$ 的特征向量。

所以 $U_2$ 是矩阵 $X^TXX^TX$ 的特征向量，而由：

$X T X X T X = U 2 Σ 2 V T 2 (U 2 Σ 2 V T 2) T = U 2 Σ 22 U T 2$ $\begin{align} X^TXX^TX &= U_2\Sigma_2V_2^T(U_2\Sigma_2V_2^T)^T\\ &=U_2\Sigma_2^2U_2^T \end{align}$
根据矩阵的特征值分解：
$X T X = Q 2 Λ 2 Q - 1 2 X T X X T X = Q 2 Λ 22 Q - 1 2$ $X^TX = Q_2\Lambda_2 Q_2^{-1}\\ X^TXX^TX = Q_2\Lambda_2^2Q_2^{-1}$
所以有：
$U 2 = Q 2 Σ 2 = Λ 2$ $U_2=Q_2\\ \Sigma^2=\Lambda^2$
能得到这样的结果是因为 $X^TX$ 本身是对称的半正定矩阵。

用SVD有啥好处？

很多地方对PCA的实现都是使用的SVD，这样做的优点有哪些呢？从这里看到一些解释
一来因为SVD没有计算 $X^TX$ 这一步，而矩阵中一些非常小的数容易在平方中丢失
二来在一些实现中，SVD的速度比特征值分解要快很多，充分地利用了协方差矩阵的性质。

PCA和SVD的应用

PCA是不必多说，一提到降维方法首先想到的就是PCA，关于降维方法后面可能还会找时间整理一些有意思的算法，我们可以看到对这些算法都有很intuitive的解释，搞懂是如何从intuition到公式再到计算步骤，是一个非常有意思的过程。如果只是停留在了解算法思想和流程，然后拿着库用一用，会丢掉很多有意思的东西。
除了常规的PCA，好像还有一些PCA的改进算法（从PRML的目录看起来^_^），等后面有时间研究一下一并奉上（如果有意思）。

SVD其实是众多矩阵分解的一种，除了在PCA上使用，也有用于推荐，在推荐领域的svd算法形式上并不能和标准的奇异值分解对应上，但其思路是相通的，具体可以参考协同过滤算法实现。同时SVD也可以很方便地算出矩阵的伪逆，这在最小二乘中有应用：

$X - 1 = V Σ - 1 U T$ $X^{-1} = V\Sigma^{-1}U^T$

总结

PCA有很好的直觉解释，一些可视化也很直观，所以往往忽视了其中的一些细节，深入地了解下来发现了很多有意思的东西，很有收获。笔者水平有限，如果文中有什么错误，还请告知，不甚感谢。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

Dark_Scope

关注关注

42
点赞

踩

143

收藏

觉得还不错? 一键收藏

21
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

机器学习中的数学基础：(3)主成分分析（PCA）及其应用

m0_37957160的博客

04-01 2375

主成分分析主要用于数据的降维？什么是降维？比如说有如下的房价数据：这种一维数据可以直接放在实数轴上：房价样本数据用X表示，则以上数据的均值为：以均值为原点：将上述表格以均值，做“中心化”处理，再求方差。中心化之后看到数据分为两类：接下来新增加房屋面积，可以看到两者正相关（此例是理想情况下，房价和面积完全成正比，所以会在一条直线上），有一列数据就是多余的...

机器学习中特征选择的几种方法原理和代码实现（python）

Chelseady的博客

09-09 5846

一.特征选择-单变量特征选择 1.SelectKBest可以依据相关性对特征进行选择，保留k个评分最高的特征。方差分析分类问题使用f_classif，回归问题使用f_regression。 f_classif：分类任务跟目标的分类，将样本划分成n个子集，S1,S2,..,Sn，我们希望每个子集的均值μ1，μ2，...，μn不相等。我们假设H0:μ1=μ2=...=μn，当...

21 条评论您还未登录，请先登录后发表或查看评论

机器学习实战——PCA和SVD

uilotus

09-20 2531

一、利用PCA简化数据二、

PCA与SVD的关系

ningyanggege的博客

11-30 894

SVD并不要求是方阵，而PCA必须要求是方阵，所以会PCA必须计算协方差矩阵，计算量大，且会出现数值溢出；

主成分分析PCA与奇异值分解SVD

最新发布

lty1392309506的博客

03-22 692

奇异值分解（Singular Value Decomposition，简称 SVD）是线性代数中的一种基本工具，它将任意一个 (m * n) 矩阵 (A) 分解成三个简单矩阵的乘积，即(U) 的列向量称为，它们构成了（或）的一个正交基。对角线上的元素称为，且都是非负数。奇异值通常按从大到小排列，反映了矩阵 (A) 在各个方向上的拉伸或压缩程度。(V) 的列向量称为，它们构成了（或）的一个正交基。(V^T) 表示 (V) 的转置（或共轭转置）。

SVD与PCA的联系

littlehaes的博客

02-23 506

最主要的一点: 对矩阵进行PCA降维,一般是通过SVD实现的,而不是去计算原矩阵特征的协方差矩阵. 当前数据为p*n的矩阵X,n个样本,每个样本维度为p SVD: Xpn = UΣV^t PCA: Xpn = App^t*Ypn (A是正交矩阵,由p个特征的协方差矩阵的单位特征向量构成;Y是在新维度下的数据表示) 将SVD与PCA联系起来 SVD: X*X^t = U*Σ*Σ^t*U^t ...

降维方法PCA与SVD的联系与区别

weixin_30443895的博客

07-08 1052

在遇到维度灾难的时候，作为数据处理者们最先想到的降维方法一定是SVD(奇异值分解)和PCA(主成分分析)。两者的原理在各种算法和机器学习的书籍中都有介绍，两者之间也有着某种千丝万缕的联系。本文在简单介绍PCA和SVD原理的基础上比较了两者的区别与联系，以及两者适用的场景和得到的效果。一、SVD 1.1 特征值分解在说奇异值分解之前，先说说特征值分解，特征值分解 \(A = PDP^{-1}\...

奇异值分解(SVD)与PCA(主成分分析)

weixin_43972621的博客

09-10 7737

奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统(稍后讲解)，以及自然语言处理等领域，是很多机器学习算法的基石。下面将从SVD的原理、SVD的推导、分析SVD与PCA之间的关系等进行讲解，一步步到最后的推荐系统。一、SVD原理 1.1 SVD定义若A是一个m*n的矩...

主成分分析（PCA）原理详解

热门推荐

Microstrong

06-09 66万+

“微信公众号”本文同步更新在我的微信公众号里，地址：https://mp.weixin.qq.com/s/Xt1vLQfB20rTmtLjiLsmww本文同步更新在我的知乎专栏里面：主成分分析（PCA）原理详解 - Microstrong的文章 - 知乎https://zhuanlan.zhihu.com/p/377770741.相关背景在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观...

十分钟搞懂主成分分析PCA

上帝的筛子的博客

07-25 701

文章目录几个疑问基本思路计算PCA的步骤与SVD的关系几个疑问 PCA是干什么的？首先有一组数据蓝色点，PCA所谓的降维操作就是找到一个新的坐标系（旋转的两条直线式垂直的，我们可以用一组标准正交基来指示），然后减掉其中一些维度，使误差足够小。 PCA与协方差矩阵的关系 PCA与SVD的关系基本思路假设我们有一个数据Xn∗mX_{n*m}Xn∗m，其中n代表了特征的个数，m代表了...

PCA与SVD

FireCoder

03-21 560

PAC 与 SVD1. PCA2. SVDPCA与SVD 今天梳理了降维的主要方法，PCA与SVD [参考文章1 https://www.cnblogs.com/pinard/p/6251584.html)] (https://www.cnblogs.com/pinard/p/6251584.html) 参考文章2 https://blog.csdn.net/qq_24464989/article...

奇异值分解(SVD)与主成分分析(PCA)

伍六七的博客

11-30 2687

奇异值分解(SVD)与主成分分析(PCA) 1 算法简介奇异值分解（Singular Value Decomposition），简称SVD，是线性代数中矩阵分解的方法。假如有一个矩阵A，对它进行奇异值分解，可以得到三个矩阵相乘的形式，最左边为m维的正交矩阵，中间为m*n 的对角阵，右边为n维的正交矩阵： A=UΣVTA=U\Sigma V^{T}A=UΣVT 这三个矩阵的大小如下图所示：矩阵...

PCA和SVD区别和联系

Alex.W.的机器学习之路

02-07 5万+

前言： PCA(principal component analysis)和SVD(Singular value decomposition)是两种常用的降维方法，在机器学习等领域有广泛的应用。本文主要介绍这两种方法之间的区别和联系。一、PCA: PCA的中文名叫做主成分分析，是降维和去噪的一种重要方法。PCA选取包含信息量最多的方向对数据进行投影。其投影方向可以从最大化方差或者最小化投

机器学习：对数据进行降维（PCA和SVD）

纸上得来终觉浅

09-06 2449

对数据进行降维（PCA和SVD）

PCA和SVD关系

shiyongraow的博客

04-02 723

最近有用到PCA降维，其中涉及到SVD，看了一些博客，挑选其中的几篇。 PCA的简单推导 PCA有两种通俗易懂的解释，1)是最大化投影后数据的方差(让数据更分散)；2)是最小化投影造成的损失。这两个思路最后都能推导出同样的结果。下图应该是对PCA第二种解释展示得最好的一张图片了

理解PCA和SVD

LiuConey的博客

04-27 664

这篇文章推导的很好，由于复制过来太难看，所以这里记录个网址。 http://www.fuzihao.org/blog/2015/12/04/%E7%90%86%E8%A7%A3PCA%E5%92%8CSVD/

机器学习：PCA和SVD的关系

huakai16的博客

01-06 824

原博客地址：从PCA和SVD的关系拾遗自己写的代码，可视化博客的理论观点：点这里

SVD、PCA小结

u013164528的专栏

04-26 2729

SVD的解法以及SVD与PCA之间的关系

数据分析pca和svd

02-26

### 主成分分析 (PCA) 和奇异值分解 (SVD) #### PCA 的工作原理及其应用主成分分析是一种用于降维的技术，其目标是在保留尽可能多的信息的同时减少数据集的维度。通过计算协方差矩阵并找到最大化的方向向量（即主成分），可以实现这一点。每个主成分对应于原始变量的一个线性组合，并按照它们所解释的数据总变异的比例排序。对于给定的数据集，`explained_variance_ratio_` 属性提供了各主成分对方差贡献的具体数值[^1]： ```python import numpy as np from sklearn.decomposition import PCA np.set_printoptions(precision=3, suppress=True) pca = PCA() # 计算 explained variance ratio... print(pca.explained_variance_ratio_) ``` 这种方法特别适用于可视化高维数据、去除噪声或作为其他机器学习模型之前的预处理步骤。 #### SVD 的工作机制及其用途奇异值分解则提供了一种不同的视角来看待相同的问题——它不是直接寻找最佳投影轴，而是将输入矩阵 $ A \in R^{m\times n} $ 分解成三个部分：两个正交矩阵 U 和 V 转置以及中间对角阵 Σ 。其中Σ包含了所谓的“奇异值”，反映了原矩阵的重要程度；而U和V分别代表左奇异性向量与右奇异性向量。这种技术同样能够帮助我们理解复杂结构化信息的本质特征[^3]。例如，在图像压缩场景下，可以通过截断较小的奇异值得到近似版本从而节省存储空间而不明显影响质量。 #### PCA 与 SVD 的对比尽管两者都涉及到降低维度的概念，但存在一些关键差异: - **目的不同**: PCA旨在最大化样本间的距离度量标准下的离散度；相比之下,SVD关注的是重构误差最小化. - **适用范围各异**: 当仅需考虑单个表征时可选用前者; 若涉及多个关联表格，则后者更为合适. - **输出形式有所区别**: 经过PCA变换后的坐标系通常具有直观的意义（如第一主元往往指示着最重要的变化趋势）；然而经由SVD得到的结果可能缺乏类似的解释力除非进一步转换为特定上下文内的含义.