Spark MLlib特征处理：SVD 奇异值分解 ---原理及实战

最新推荐文章于 2020-09-09 14:26:06 发布

wangpei1949

最新推荐文章于 2020-09-09 14:26:06 发布

阅读量5.5k

点赞数 2

分类专栏：机器学习文章标签： SVD奇异值分解

本文链接：https://blog.csdn.net/wangpei1949/article/details/53191026

版权

机器学习专栏收录该内容

19 篇文章 5 订阅

订阅专栏

原理

工业应用上的奇异值分解是近似的奇异值分解，而严格数学意义上的奇异值分解并非这样定义。

严格数学意义上的奇异值分解：

$M m \times n = X m \times m * Σ m \times n * V' n \times n$ $M_{m\times n} = X_{m\times m}* \Sigma _{m\times n}*V^{'}_{n\times n}$

工业应用上的奇异值分解SVD就是把一个矩阵A做如下转换：

$A m \times n \approx U m \times k * S k \times k * V' n \times k$ $A_{m\times n} \approx U_{m\times k}*S_{k\times k}*V^{'}_{n\times k}$
$U_{m\times k}$ ：在MLlib中叫右奇异矩阵(很疑惑，但在MLlib里确实如此)，里边包含右奇异向量。由Spark源码:U, the matrix storing the right singular vectors.可知。

$S_{k\times k}$ ：奇异值对角方阵，MLlib中奇异值按降序排序，取top k，除奇异值所在的对角线，其他位置全为0。

$V^{'}_{n\times k}$ ：在MLlib中叫左奇异矩阵，里边包含左奇异向量。

举例：

设矩阵 $A_{2*3}$

$A = (4.0 5.0 2.0 6.0 3.0 1.0)$ $A = \begin{pmatrix} 4.0& 2.0 &3.0 \\ 5.0& 6.0 &1.0 \end{pmatrix}$

则矩阵A的转置:列变行 $A^{T}_{3*2}$

$A T = ⎛ ⎝ ⎜ 4.0 2.0 3.0 5.0 6.0 1.0 ⎞ ⎠ ⎟$ $A^{T} = \begin{pmatrix} 4.0 & 5.0 \\ 2.0 & 6.0 \\ 3.0 & 1.0 \end{pmatrix}$

则 $A*A^{T}$

$A * A T = (29.0 35.0 35.0 62.0)$ $A*A^{T} = \begin{pmatrix} 29.0 &35.0 \\ 35.0 & 62.0 \end{pmatrix}$

则 $A*A^{T}$ 的特征值和特征向量:由 $\left ( A*A^{T} \right )V_{i}=\lambda _{i}R_{i}$ 求得。

$A*A^{T}$ 的特征值：

84.1943148278917，6.805685172108291

$A*A^{T}$ 每一特征值对应的特征向量(列向)：

-0.5355281357229256 0.8445173863510019

-0.8445173863510022,-0.5355281357229257

奇异值s：由 $s_{i}=\sqrt{\lambda _{i}}$ 求得奇异值对角方阵

$S 2 * 2 = (9.175746009338516 0.0 0.0 2.608770816324863)$ $S_{2*2}= \begin{pmatrix} 9.175746009338516 &0.0 \\ 0.0 & 2.608770816324863 \end{pmatrix}$

右奇异向量:由 $u_{i}=R_{i}$ 求得右奇异矩阵U。 $u_{i}:U矩阵的第i列$

$U 2 * 2 = (- 0.5355281357229256 - 0.8445173863510022 0.8445173863510019 - 0.5355281357229257)$ $U_{2*2}= \begin{pmatrix} -0.5355281357229256 &0.8445173863510019 \\ -0.8445173863510022 & -0.5355281357229257 \end{pmatrix}$

左奇异向量:由 $v_{i}=\frac{1}{s_{i}}*A^{T}*u_{i}$ 求得左奇异矩阵V。 $v_{i}:V矩阵的第i列$

$V 3 * 2 = ⎛ ⎝ ⎜ - 0.6936438157910113 - 0.6689549365582719 - 0.2671283393225135 0.26848999628726217 - 0.5842345491209884 0.7658871414947904 ⎞ ⎠ ⎟$ $V_{3*2}= \begin{pmatrix} -0.6936438157910113& 0.26848999628726217\\ -0.6689549365582719& -0.5842345491209884\\ -0.2671283393225135& 0.7658871414947904 \end{pmatrix}$

如：

$\frac{1}{s_{1}}=\frac{1}{9.175746009338516}=0.10898296432598079$

$u_{1}=DenseVector(−0.5355281357229256, −0.8445173863510022)$

则由 $v_{1}=\frac{1}{s_{1}}*A^{T}*u_{1}$ 即可求得。

实战

import org.apache.spark.mllib.linalg.distributed.RowMatrix
import org.apache.spark.mllib.linalg.{Matrix, SingularValueDecomposition, Vector, Vectors}
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkContext, SparkConf}

/**
  *  A ~= U * S * V'
  *  降低A的储存和运算空间，提高效率
  */
object SVDExample {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("PCAExample").setMaster("local[8]")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    val data =Array(
      Vectors.dense(4.0 , 2.0 , 3.0),
      Vectors.dense(5.0 , 6.0 , 1.0))

    // Array[Vector]转换成DataFrame
    val df = sqlContext.createDataFrame(data.map(Tuple1.apply)).toDF("features")

    // DataFrame转换成RDD
    val df_To_rdd=df.select("features").map { case Row(v: Vector) => v}

    // RDD转换成矩阵
    // 矩阵的每一行分布式存储
    val mat: RowMatrix = new RowMatrix(df_To_rdd)

    // 奇异值分解
    // def computeSVD(k: Int,computeU: Boolean = false,rCond: Double = 1e-9)
    //k：取top k个奇异值
    //computeU：是否计算矩阵U
    //rCond：小于1.0E-9d的奇异值会被抛弃
    val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(2,true)
    // s奇异值向量
    println(svd.s)
    //[9.175746009338516,2.608770816324863]
    // U右奇异矩阵
    svd.U.rows.foreach(println)
    // [-0.5355281357229256,0.8445173863510019]
    // [-0.8445173863510022,-0.5355281357229257]
    // V左奇异矩阵
    println(svd.V)
    // -0.6936438157910113  0.26848999628726217
    // -0.6689549365582719  -0.5842345491209884
    // -0.2671283393225135  0.7658871414947904

  }

}

SVD的现实意义

以下部分来自吴军老师的数学之美。

如矩阵 $A_{100万*50万}$ 100万篇文章，每篇文章50万个特征，该矩阵的总元素有5000亿个，储存量和计算量非常大。如果用SVD做矩阵分解， $A_{100万*50万}\approx U_{100万*100}*S_{100*100}*V^{'}_{50万\times 100}$ ，既把A近似的表示为3个矩阵 $U、S、V^{'}$ ，总元素不超过1.5亿，大大减少了储存量和计算量。

也达到了降维的目的。