主成分分析 pca svd

博客探讨了无偏估计的概念,指出采样平均值与实际期望值的关系,并介绍了协方差及其矩阵。进一步,文章详细阐述了主成分分析(PCA)的原理,强调PCA寻找最大化方差的方向,以及奇异值分解(SVD)如何应用于PCA。通过矩阵运算解释了PCA和SVD之间的联系,并讨论了它们在减少数据相关性和提取主要特征方面的作用。
摘要由CSDN通过智能技术生成

无偏估计

x ‾ \overline x x是采样的平均值

μ \mu μ 是实际期望值

粗略来说: ∑ ( x i − x ‾ ) 2 < ∑ ( x i − μ ) 2 \sum (x_i-\overline x)^2<\sum (x_i-\mu)^2 (xix)2<(xiμ)2

所以要用n-1增大左边

推导过程需要 E [ ( X ‾ − μ ) 2 ] = σ 2 n E[(\overline X-\mu)^2]=\frac{\sigma^2}{n} E[(Xμ)2]=nσ2我还理解不了就不写了。qwq

协方差

C o v ( X , Y ) = 1 n − 1 ∑ ( x i − x ‾ ) ( y i − y ‾ ) Cov(X,Y)=\frac{1}{n-1}\sum(x_i-\overline x)(y_i-\overline y) Cov(X,Y)=n11(xix)(yiy)

C o n v ( X , X ) Conv(X,X) Conv(X,X)就是方差了。

协方差矩阵

多个向量x1,x2,x3…xn

各个向量之间的协方差组成协方差矩阵

c o v 1 ∗ 1 . c o v 1 ∗ n . . . c o v n ∗ 1 . c o v n ∗ n \begin{matrix} cov1*1 & . &cov1*n \\ .&.&. \\ covn*1 & . &covn*n \end{matrix} cov11.covn1...cov1n.covnn

以下都是提前期望化为0后的

PCA

协方差矩阵对角化,选特征值最大那个

X是一个列一个样本

PX等同于让X的基变为P的每一行

解释:设a为P第一行为单位向量。x为X第一列
a和x的内基等于于x在a上的投影

(为什么矩阵的东西都是我能明白为啥,但是就是想不明白实际上是为啥555。

找一组基P让PX的协方差矩阵为对角矩阵时,各个方向相关性最小,自己方向上方差却最大。

D X D_X DX不是算每个样本之间的协方差矩阵,而是样本每一个属性组成的m(矩阵数目)维向量!!!!!

D Y = 1 n Y Y T = P D X P T D_Y=\frac{1}{n}YY^T\\=PD_XP^T DY=n1YYT=PDXPT

P的每一行是 D X D_X DX特征向量

(学到了一个道理,与其空想不如举一个二维样本组的例子化成一维)

SVD

PCA 的一种方法(?

A不一定刚好nn

A分解成 U ∑ V T U\sum V^T UVT

A T = V ∑ T U T A^T=V\sum^TU^T AT=VTUT

A A T = U ∑ ∑ T U T AA^T=U\sum \sum^TU^T AAT=UTUT

A T A = V ∑ T ∑ V T A^TA=V\sum^T \sum V^T ATA=VTVT

∑ ∑ T a n d ∑ T ∑ \sum \sum^Tand\sum^T \sum TandT都是对角矩阵

两个都为对称函数且刚好为对角化后的矩阵形式,对这两个对角化就能求出U(列向量为第一个的特征向量)V(列向量为第二个的特征向量)和 ∑ \sum (m,n)的对角线的平方

取U(m,m)前k列,V(n,n)前k列(也就是V转置的前k行)

SVD有迭代处理法避免计算两个A的乘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值