四大数据分析之 SVD理论

最新推荐文章于 2024-05-09 21:17:36 发布

drawsky

最新推荐文章于 2024-05-09 21:17:36 发布

阅读量1.1k

点赞数

分类专栏： spark快速大数据分析文章标签：大数据

本文链接：https://blog.csdn.net/drawsky/article/details/78068167

版权

spark快速大数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一 SVD的数学模型

设有样本数据 $X=(x_{ij})_{n*p}; i=1...p,j=1...n ，\forall{x_{ij}}\in \mathbb R$ ; $n$ 为样本数， $p$ 是样本的观察指标数目。将样本数据中的一行也就是一个观察样本看成是P维空间的一个点， $n$ 个样本也就是P维空间中的 $n$ 点.

矩阵 $X$ 有如下分解： $X=U\Sigma V^t$ ，其中 $\in R^{n*n}$ , $V\in R^{p*p}$ ,$\Sigma \in R^{n*p},v_{ij}=0 , \forall{ i\neq j } $, 并且$ S, D$均为正交阵。

1.1 SVD与PCA的关系

事实上，只要找到 $H=X^{t}X$ 的特征向量矩阵V，令 $Y = X * V$ ，则有 $Y^tY=\Lambda$ , $\Lambda$ 的非对角线元素全为零，即Y个各列之间正交,只需要将Y的每列进行单位化就可以得到单位正交阵的p个列，补齐其余n-p列得到单位正交阵 $U$ ，即 $Y=U\Sigma$ ，因此有 $X=U\Sigma V^t$ 成立。

首先，令 $H=X^t*X$ ,根据SVD分解，有 $H=U\Sigma^t V^tV\Sigma U^t=U\Sigma^t \Sigma U^t=U^t\Lambda U$ 。可见，U是H的特征向量矩阵，特征值为 $\lambda _{i}=\sigma_{ii}^2$ 。

其次，令 $H^*=X*X^t$ ,根据SVD分解，有 $H=V\Sigma \Sigma^t V^t=V^t\Lambda^* V$ 。可见，V是 $H^*$ 的特征向量矩阵，特征值根为 $\lambda _{i}^*=\sigma_{ii}^2$ 。

由此知道任意的实数矩阵 $X$ , 对称阵 $X*X^t，X^t*X$ 有相同的非零特征值，他们的特征向量矩阵，对应于SVD分解的U和V。

1.2 最优化方法看SVD

用 $\vec u ,\vec v,\lambda$ 逼近 $X$ ,建立如下最优化方法：
$Q(X,\vec u ,\vec v,\lambda))=min( \sum_{i=1}^n \sum_{j=1}^p(x_{ij}-\lambda u_i v_j)^2) \\ st. \begin{cases} \sum_{i=1}^n u_i^2 &=1\\ \\ \sum_{j=1}^p v_i^2 & =1 \end{cases}$
运用拉格朗日方法，可以得到下面的方程组:
$\begin{cases} \vec u^t X \vec v & =\lambda\\ X \vec v & =\lambda \vec u & & & & (1) \\ X ^t\vec u &=\lambda \vec v \end{cases}$

由（1）可以得到，$XX ^t\vec u =\lambda X\vec v =\lambda^2 \vec u $KaTeX parse error: Expected 'EOF', got '&' at position 2: ,&̲nbsp; 容易看到$ \vec u $是$ XX ^t$的特征向量。

假设有两组解满足（1）式，分别为 $（\vec u _1,\vec v_1,\lambda_1）,（\vec u _2,\vec v_2,\lambda_2）$ ,且有 $\lambda_1^2 \neq \lambda_2^2$ 则有：
$\vec u _1^t XX ^t \vec u _2=\lambda_1^2 \vec u _1^t\vec u _2= \lambda_2^2 \vec u _1^t\vec u _2$ ,则必有 $\vec u _1^t\vec u _2=0$ ，同理还有 $\vec v_1^t\vec v_2=0$
满足（1）式的所有解，构成了X的SVD分解。

1.3 SVD分解算法

事实上（1）给出了一个迭代算法求解SVD；基本步骤如下：

初始化 $\vec v=(1,1,…，1)^t$ ， $\lambda_1=0$ ，指定一个比较小的数值 $e, e > 0$
计算 $\vec v =\vec u'$ , $\vec u ={\vec u'}/{|\vec u'|}$
计算 $\vec v'=X^t\vec u$ ， $\lambda_2={|\vec v'|}$ ， $\vec v ={\vec v'}/\lambda_2$
计算判断 $|\lambda_2-\lambda_1|<e$ ,为真，返回 $(\lambda_2,\vec u,\vec v)$ ，否则 $\lambda_1 \leftarrow \lambda_2$ 跳转到第2步。

上面给出的分解SVD算法，只给出了一组解，为了求得剩余的解，只需要将X做如下的变换： $X:=X-\lambda * \vec u *\vec v^t$ 然后按照上面的算法再计算即可，
#####下面验证第二组解满足（1）式:

事实上，假设两轮计算得到了两组解： $(\lambda_1,\vec u_1,\vec v_1),(\lambda_2,\vec u_2,\vec v_2)$ ,先验证若： $\lambda_1^2 \neq \lambda_2^2$ 有 $\vec u_1,\vec u_2$ 正交。

$（X^t-\lambda_1 * \vec v_1*\vec u_1^t）\vec u_1=X^t\vec u_1-\lambda_1 * \vec v_1=0$
所以有：
$0=\vec u_2^t(X-\lambda_1 * \vec u_1 *\vec v_1^t)(X^t-\lambda_1 * \vec v_1*\vec u_1^t)\vec u_1= \lambda_2^2\vec u_2^t\vec u_1$

可见： $\vec u_2^t\vec u_1=0$ ,同样，还有： $\vec v_2^t\vec v_1=0$ ，所以有： $\lambda_2 =\vec u_2^t(X-\lambda_1 * \vec u_1 *\vec v_1^t)\vec v_2=\vec u_2^tX\vec v_2-\lambda_1\vec u_2^t * \vec u_1 *\vec v_1^t\vec v_2=\vec u_2^tX\vec v_2 \\ \lambda_2 \vec v_2=(X-\lambda_1 * \vec u_1 *\vec v_1^t)^t\vec u_2=X^t\vec u_2\\ \lambda_2 \vec u_2=(X-\lambda_1 * \vec u_1 *\vec v_1^t)\vec v_2=X\vec v_2$

可见： $(\lambda_1,\vec u_1,\vec v_1),(\lambda_2,\vec u_2,\vec v_2)$ 都是X的SVD分解的特征。

事实上，可以通过计算 $H=X^t*X$ ,然后用上面的办法求解H的特征分解，算法可以进一步优化。但是当H或者X数据量特别大的时候，需要进行并行加速。上述算法可以进行并行运算，只需要对X进行分块即可。

二、SVD的应用

SVD分解的应用十分广泛，在数据压缩，推荐，经济结构分析等等方面，并且在应用方面与因子分析、对应分析方法极为相似。

2.1 数据压缩

     在大数据时代，存在大型数值矩阵，比如客户与购买的商品关系矩阵，网名点击网站数据等等，样本数据量为 $n * p$ ,而样本矩阵的秩 $R (X) = r$ ,则SVD分解之后的去掉零后只剩 $(n + p + 1) * r$ 个数据需要存储。这是还是无损压缩。

     假设 $n=100*10^5,p=10^5,r=10^3$ ,则存储原始数据量为 $10^{12}$ ,而通过SVD分解后，存储数据量为 $(100*10^5+10^5+1)*10^3 \approx10^{10}$ ,所需存储空间缩小两个数量级。

     除此之外，参照PCA(主成分分析)，可将特征值从大到小排列，取方差和占比前80%的特征分量，还可以进一步压缩数据，降低噪音。

2.2 缺失值估计,商品推荐

在很多时候，X是稀疏矩阵，比如若X的每行代表某人购买不同商品数量或者金额的样本数据。将样本中缺失的数据视为潜在的消费需求，那么估计样本中缺失数据的值，就可以用来做商品推荐。
1.2节中讨论了二乘法逼近样本的最优化方法，并且从中给出了SVD分解的算法，现在稍微修改一下该方法，在此之前定义一个函数：
$\begin{cases} 0 &x=0\\ 1 & x\neq0 \end{cases}$
然后定义极值函数：
$Q(X,\vec u ,\vec v,\lambda))=min( \sum_{i=1}^n \sum_{j=1}^p[s(x_{ij})*(x_{ij}-\lambda u_i v_j)^2] ) \\ st. \begin{cases} \sum_{i=1}^n u_i^2 &=1\\ \\ \sum_{j=1}^p v_i^2 & =1 \end{cases}$
极小化目标函数 $Q(X,\vec u ,\vec v,\lambda)$ ，可以得到一组解 $(\lambda,\vec u,\vec v)$ ，具体求解算法类似于 1.2节中介绍的SVD
分解的迭代算法，对于某个缺失值 $x_{ij}$ ，只需要计算 $\lambda u_iv_j$ ,就估计得到某人对某种商品的潜在需求，从而进行推荐。

2.3 代替因子分析和对应分析

未加指明时默认SVD分解中V的对角线元素是是左上到右下，按照元素平方从大到小排列的。
假定大家熟悉因子分析（不懂的自行补脑^_），因子分析分为R型因子分析和Q型因子分析，对于同一组样本，将两种分析结合起来，就是对应分析。

2.3.1 简单介绍因子分析模型

因子分析主要思想是将观测指标或者观测样本视为某些隐藏的因素叠加而来的。比如样本矩阵X的p个指标，分别记为 $\vec x_i,i=1..p$ ， $\vec x_i$ 是X的第i列。假设有r个隐藏因子记为 $F_j,j=1..r$ ,建立如下模型：
$\vec x_i=u_i+a_{ik}*F_k+e_i,\forall i=1...p,k=1...r,e_i \sim N(0,\varepsilon),\sum_{i=1}^pa_{ik}^2=1$
$e_i$ 噪音， $a_{ij}$ 是指标 $\vec x_{i}$ 在隐藏因子 $F_j$ 上的得分,并且要求 $cov(F_i,F_j)=0, \forall i\neq j$ 。
表述成矩阵形式，就有：
$X=(\vec x_1,\vec x_2,...,\vec x_p)=U+(F_1,F_2，...，F_r)*A+\mathbb e=U+\mathbb F*A+\mathbb e,A\in R^{r*p}$

2.3.2 对比因子分析模型与SVD模型

对照这个模型，重新审视SVD，假定X的值为k,选择 $r$ 满足 $r < k$ 。记 $\vec u_i，i=1...k$ ， $\vec u_i$ 是U的第i列，对应 $\vec v_i，i=1...k$ ， $\vec v_i^t$ 是V的第i列，$ \sigma_{i}，i=1…k $，$ \sigma_i $是$ \Sigma $的第 i 个对角线元素。重新用普分解的方式可以将 X 表示为$ $X=\sum_{i=1}^k \sigma_i\vec u_i*\vec v_i^t=\sum_{i=1}^r \sigma_i\vec u_i*\vec v_i^t+\sum_{i=r+1}^k \sigma_i\vec u_i*\vec v_i^t$ $
设 $\mathbb e=\sum_{i=r+1}^k \sigma_i\vec u_i*\vec v_i^t$ ，
对照R型因子分析，记 $\mathbb F=(\sigma_1\vec u_1,\sigma_2\vec u_2,...,\sigma_r\vec u_r)=S'V'$ ；

模型比较总结如下：

记 $A=\hat V^t=(\vec v_1,\vec v_2,...\vec v_r)^t$ ，有 $\mathbb F*A=\sum_{i=1}^r \sigma_i\vec u_i*\vec v_i^t$ ，有 $X=\mathbb F* A+\mathbb e$ ，于是：

1、对应于因子分析中的因子得分 $\sum_{i=1}^pa_{ik}^2=1$ ,有 $\vec v_i^t*\vec v_i=1$ ；

2、对应于因子分析中的 $cov(F_i,F_j)=0$ ，有 $\sigma_i \sigma_j\vec u_i^t*\vec u_j=\begin{cases}0 & if & i\neq j\\u_i^2 & if & i=j\end{cases}$

3、对应于 $e_i \sim N(0,\varepsilon)$ ,有 $(\sum_{i=r+1}^k \sigma_i\vec u_i)^t*(\sum_{i=r+1}^k \sigma _i\vec u_i)=\sum_{i=r+1}^k\sigma_i^2=\varepsilon$

2.3.3分析总结

1.      可以看出，除了中心化的要求外，SVD分解与因子分析严格对应，而且SVD集R型和Q型分析两种分析于一体，是接近于对应分析的一种分析方案。
2.      更进一步，参照普分解理论,参考因子分析，对于某个样本的某个指标值 $x_{ij}$ ，可以将SVD解理为: $x_{ij}=\sum_{k=1}^r\sigma _ku_{ik}*v_{kj}+\varepsilon_{ij},\forall i=1...n,j=1..p$

      $\sigma _k$ 代表第k个隐藏因子的对指标得分的基准权重； $u_{ik}$ 代表第i个样本值对应第k个因子的得分； $v_{kj}$ 代表第j个指标对应第k个因子的得分，绝对值较小特征值代表的隐藏因子视为噪音。