
同步更新在个人网站:http://www.wangpengcufe.com/machinelearning/ml-ml7/
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下,得到一组描述原数据的,低维度的隐式特征(或称主要特征)。简单来说,在高维数据中筛选出对我们有用的变量,减小计算复杂度提高模型训练效率和准确率,这就是我们要说的降维。
MLlib机器学习库提供了两个常用的降维方法:奇异值分解(Singular Value Decomposition,SVD) 和 主成分分析(Principal Component Analysis,PCA),下面我们将通过实例介绍其具体的使用方法。
一、公式和原理
奇异值分解(SVD)将矩阵A分解为三个矩阵:U,Σ和V,如下公式
公式:
其中
左奇异矩阵 :,U 为一个标准正交矩阵,也叫实对称矩阵,怎么理解这个概念呢?就是说矩阵A的转置等于其本身,或者说矩阵U的维度为m×m ,用符号表示为

本文介绍了奇异值分解(SVD)的基本原理和在机器学习中的应用,通过实例展示了如何在Spark的MLlib库中实现SVD,并讨论了降维的优缺点。SVD在信息检索、推荐系统等领域有广泛应用。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



