奇异值分解及应用(PCA&LSA)

最新推荐文章于 2023-03-17 18:30:00 发布

小村长

最新推荐文章于 2023-03-17 18:30:00 发布

阅读量4.1k

点赞数 3

分类专栏：机器学习文章标签：奇异值分解 pca svd lsa

本文链接：https://blog.csdn.net/Lu597203933/article/details/45898411

版权

本文介绍了奇异值分解（SVD）在主成分分析（PCA）和潜在语义分析（LSA）中的应用。PCA利用SVD找到数据的主轴，进行降维，而LSA通过SVD解决词义多义性和一义多词问题，重构潜在语义空间。文章涉及TF-IDF、布尔模型，并给出了PCA和LSA的具体步骤。

摘要由CSDN通过智能技术生成

这里我省去了很多的数学知识，建议数学比较薄弱的读者可以先看看<信息检索导论>第18章。主要的数学知识包括方阵的特征值、特征向量；方阵的对角化；一般矩阵的奇异值分解及低秩逼近矩阵。这里主要讲解奇异值分解的两个应用PCA(降维)和LSA(潜在语义结构分析)。

PCA:

之前有详细讲过PCA，见：http://blog.csdn.net/lu597203933/article/details/41544547。这里主要想讲解从SVD的角度去解决PCA.

PCA主要是为了寻找数据随之变化的主轴，我们都知道主轴的方向即为样本通过zscore归一化(即归一化后的均值为0，方差为1)的数据协方差矩阵所对应的最大特征值所对应的特征向量。而我们知道svd的定义如下公式：

A = UDV^T,这里假设A是m*n的矩阵，m是样本的数目，n为特征的数目。那么U为m*m的方阵且每一列都为A*A^T单位正交化的特征向量，V为n*n的方阵且每一列都为A^T*A单位正交化的特征向量，D为A*A^T(或A^T*A)的特征值的算术平方根构成的对角阵且为降序。

因此通过对数据进行归一化处理，A^T*A即为n维特征多对应的协方差矩阵，因此V的topK列就是我们需要寻找的PCA降维的前K个主轴.我们将其标注为[u1,u2,u3,…uk]其中ui都是向量。那么对于样本数据x⁽ⁱ⁾(n维)，[x^(i)T*u1, x^(i)T*u2,….x^(i)T

关注

专栏目录