主成分分析降维原理——PCA数学推导

最新推荐文章于 2023-03-09 18:30:00 发布

置顶南瓜派三蔬

最新推荐文章于 2023-03-09 18:30:00 发布

阅读量1k

点赞数 1

分类专栏： # 《DeepLearning》笔记文章标签：主成分分析机器学习降维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36810398/article/details/89788639

版权

《DeepLearning》笔记专栏收录该内容

7 篇文章 2 订阅

订阅专栏

文章目录

1.PCA降维的计算过程

下图是从西瓜书里截取的PCA降维过程的图片。
在这里插入图片描述
需要说明的是，算法中的向量为列向量。假设原始维度为d，样本数目为m，因此特征矩阵X的维度为d×m，W的维度为d×d’。降维的时候，transpose(W)*X得到 d’×m的矩阵，它的每一列，即为降维后的向量。

2.数学推导

不过西瓜书里没有详细推导（我查了好几本书，包括DeepLearning和Hands On ML，都没有写详细推导，DeepLearning是作为一个练习让读者自己做）——为什么选取最大的d’个特征值所对应的特征向量就可以组成投影矩阵？结合DeepLearning里的部分过程，我补全了一个类似的证明。不排除有不对的地方，供有需要的朋友参考。

（a）PCA的目标
在这里插入图片描述

（b）求解

3.总结

（1）通过上述推导，感觉自己应该更清楚了PCA的原理：
PCA的目标是通过降维之后的向量，再还原回来的之后和原向量最接近（都是用线性映射），为了实现这个目标，得到的投影矩阵恰好是，原数据集的协方差矩阵的前d’个主成分为列组成的矩阵。
（2）从上述推导过程，也可以看到PCA和“不含非线性元素的自编码器”是在某些限定之下等价的。这在某些自编码器的资料里也常被提到，它们的思想都是相同的————通过线性编码和解码，使得输入和输出的差尽量小。

南瓜派三蔬

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。