奇异值分解及应用(PCA&LSA)

本文介绍了奇异值分解(SVD)在主成分分析(PCA)和潜在语义分析(LSA)中的应用。PCA利用SVD找到数据的主轴,进行降维,而LSA通过SVD解决词义多义性和一义多词问题,重构潜在语义空间。文章涉及TF-IDF、布尔模型,并给出了PCA和LSA的具体步骤。
摘要由CSDN通过智能技术生成

这里我省去了很多的数学知识,建议数学比较薄弱的读者可以先看看<信息检索导论>18章。主要的数学知识包括方阵的特征值、特征向量;方阵的对角化;一般矩阵的奇异值分解及低秩逼近矩阵。这里主要讲解奇异值分解的两个应用PCA(降维)LSA(潜在语义结构分析)

PCA:

之前有详细讲过PCA,见:http://blog.csdn.net/lu597203933/article/details/41544547这里主要想讲解从SVD的角度去解决PCA.

PCA主要是为了寻找数据随之变化的主轴,我们都知道主轴的方向即为样本通过zscore归一化(即归一化后的均值为0,方差为1)的数据协方差矩阵所对应的最大特征值所对应的特征向量。而我们知道svd的定义如下公式:

A = UDVT,这里假设Am*n的矩阵,m是样本的数目,n为特征的数目。那么Um*m的方阵且每一列都为A*AT单位正交化的特征向量,Vn*n的方阵且每一列都为AT*A单位正交化的特征向量,DA*AT(AT*A)的特征值的算术平方根构成的对角阵且为降序。

因此通过对数据进行归一化处理,AT*A即为n维特征多对应的协方差矩阵,因此VtopK列就是我们需要寻找的PCA降维的前K个主轴.我们将其标注为[u1,u2,u3,…uk]其中ui都是向量。那么对于样本数据x(i)(n)[x(i)T*u1, x(i)T*u2,….x(i)T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值