1. 奇异值分解 SVD(singular value decomposition)
1.1 SVD评价
优点: 简化数据, 去除噪声和冗余信息, 提高算法的结果
缺点: 数据的转换可能难以理解
1.2 SVD应用
(1) 隐性语义索引(latent semantic indexing, LSI)/隐性语义分析(latent semantic analysis, LSA)
在LSI中, 一个矩阵由文档和词语组成的.在该矩阵上应用SVD可以构建多个奇异值, 这些奇异值代表文档中的概念或主题, 可以用于更高效的文档搜索.
(2) 推荐系统
先利用SVD从数据中构建一个主题空间, 然后在该主题空间下计算相似度.
1.3 SVD分解
SVD是一种矩阵分解技术,其将原始的数据集矩阵A(m*n)分解为三个矩阵, ,分解得到的三个矩阵的维度分别为m*m,m*n,n*n.其中除了对角元素不为0,其它元素均为0,其对角元素称为奇异值,且按从大到小的顺序排列, 这些奇异值对应原始数据集矩阵A的奇异值,即A*A(T)的特征值的平方根.
在某个奇异值(r个)之后, 其它的奇异值由于值太小,被忽略置为0, 这就意味着数据集中仅有r个重要特征,而其余特征都是噪声或冗余特征.如下图所示: