2022-10-10-使用SVD进行数据降维

汤姆z

已于 2022-10-11 23:54:05 修改

阅读量788

点赞数

分类专栏： 2022知识点学习文章标签： python java

于 2022-10-10 23:04:11 首次发布

本文链接：https://blog.csdn.net/nalidour/article/details/127254221

版权

降维在机器学习中很重要，SVD是一种常见的方法。它将矩阵分解为U、Σ和V，通过保留主要奇异值和向量来降低维度。文章介绍了SVD的原理，并给出了JAVA实现的示例。

摘要由CSDN通过智能技术生成

SVD介绍

降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段，它可以减少计算过程中考虑到的随机变量(即特征)的个数，其被广泛应用于各种机器学习问题中，用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下，得到一组描述原数据的，低维度的隐式特征(或称主要特征)。简单来说，在高维数据中筛选出对我们有用的变量，减小计算复杂度提高模型训练效率和准确率，这就是我们要说的降维。

MLlib机器学习库提供了两个常用的降维方法：奇异值分解(Singular Value Decomposition，SVD) 和主成分分析(Principal Component Analysis，PCA)，下面我们将通过实例介绍其具体的使用方法。
一、公式和原理
奇异值分解(SVD)将矩阵A分解为三个矩阵：U，Σ和V，如下公式，其中
左奇异矩阵 :，U 为一个标准正交矩阵，也叫实对称矩阵，怎么理解这个概念呢？就是说矩阵A的转置等于其本身，或者说矩阵U的维度为m×m ，用符号表示为U，我们称 U为左奇异矩阵。
奇异值 : Σ 是一个对角矩阵，仅在主对角线上有值，其它元素均为0，用符合表示为Σ，我们称Σ为奇异值。
右奇异矩阵 ： V也是一个正交矩阵，这会儿知道是啥意思了吧，和U的解释一样，用符号表示为V ，我们称 V 为右奇异矩阵。
奇异值分解 ：就是想要找到一个比较小的值k，保留前k个奇异向量和奇异值，其中 U 的维度从 m×m 变成了 m×k , V 的维度从 n×n 变成了 m×k ，Σ 的维度从 m×n 变成了 k×k 的方阵，从而达到降维效果。

JAVA实现

POM文件中需要加入的依赖：

				<dependency>
				    <groupId>io.netty</groupId>
				    <artifactId>netty-all</artifactId>
				    <version>4.1.17.Final</version>
				</dependency>
     <!-- Spark-core -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.3.1</version>
        </dependency>
        <!-- SparkSQL -->
        <dependency>
            <groupId>org.apache.spark</groupId