PCA的理解

最新推荐文章于 2023-02-16 21:59:06 发布

V丶Chao

最新推荐文章于 2023-02-16 21:59:06 发布

阅读量642

点赞数

分类专栏：机器学习文章标签：可视化 python 人工智能机器学习 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011698800/article/details/107607692

版权

机器学习专栏收录该内容

43 篇文章 3 订阅

订阅专栏

2019/04/10
（可能有些解释或者内容是不对的，一定要判断下2019/04/10）

引言

就目前来看，我大致理解了PCA的工作原理，但仍然有很多疑惑，先抛开这些不说，来整理一下我的认知。
要完全理解这个东西，需要的理论知识主要是统计学中的方差概念和线性代数中的特征向量和特征值。

认知

PCA作为一种降维的方式，通过找到数据方差最大的方向，作为新的特征，他本身并不代表着降维，需要你来指定需要多少个成分。（这个是写程序过程需要注意的）
最简单的理解方式，就是一个线性相关的数据集，比如X与Y正相关，如果对他进行PCA分析，那么他的两个成分分别是穿过点的一条直线和与前面这条直线垂直（正交）的线。第一条穿过所有点的就是第一成分。
（这里的理解仍然是非常浅显 2019/04/10）
注意：要从两个方面来理解，第一几何意义，第二，他的数学根据；目前来看从几何意义上算是理解了，但数学角度还是没有理解。

疑惑

虽然利用正交的两个线画出来，好像他们建立了新的坐标系，这样容易理解，但为什么呢？就比如说，第一成分的线稍微歪一点，那这个的分散度不是更大吗？
看到一个网站说，是为了让特征独立。
PCA的主题思想我明白了，但为什么可以用协方差矩阵的特征向量就可以来建立新的特征空间呢？（资源2）

资源

以问答的形式来解释PCA，making-sense-of-principal-component-analysis-eigenvectors-eigenvalues
他开始的回答比较通俗，就是要干这个事情，但最后的时候，我再看到矩阵的时候，就不明白了。
关于疑惑2的类似问题what-is-an-intuitive-explanation-for-how-pca-turns-from-a-geometric-problem-wit
关于特征向量特征值的简单介绍
他的介绍，提到了这个矩阵变换的内容，这个也不知道以前学没学，反正忘干净了。
PCA 的数学原理和可视化效果
这个解释的很简洁，也很清楚，但有些词汇还是比较陌生。他提到了这个优化问题，这个我在那本统计学习的书上也见到过。
eigenvectors-and-eigenvalues/
这是一个可以可视化特征向量和特征值的网站，可以作为后续的理解。
PCA的解释a-one-stop-shop-for-principal-component-analysis
这个解释的角度不太一样，而且说了很多以前没见过的内容。
05.09-principal-component-analysis.html
结合代码和理论公式的解释。
understanding-principal-component-analysis-once-and-for-all
这个可能是涵盖内容最多的。他也是期望从线性代数的角度上给出描述。

我个人觉得，虽然那本手册（在文献软件中保存）解释的不够具体，但也差不多能理解了，再辅助这些内容。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PCA的理解

2019/04/10（可能有些解释或者内容是不对的，一定要判断下2019/04/10）引言就目前来看，我大致理解了PCA的工作原理，但仍然有很多疑惑，先抛开这些不说，来整理一下我的认知。要完全理解这个东西，需要的理论知识主要是统计学中的方差概念和线性代数中的特征向量和特征值。认知PCA作为一种降维的方式，通过找到数据方差最大的方向，作为新的特征，他本身并不代表着降维，需要你来指定需要多...
复制链接

扫一扫

专栏目录

V丶Chao CSDN认证博客专家 CSDN认证企业博客

码龄11年

515: 原创

1万+: 周排名

5633: 总排名

60万+: 访问

: 等级

6241: 积分

6886: 粉丝

334: 获赞

110: 评论

1149: 收藏

私信

关注

热门文章

分类专栏

最新评论

交叉验证--关于最终选取模型的疑问
weixin_66706618: 请问这个问题解决了吗我现在也在纠结这个问题
交叉验证--关于最终选取模型的疑问
记录问题的菜鸡: 我想问一个问题，就是进行特征工程的时候是使用所有的数据吗，然后得到最佳子集后，利用贝叶斯的10重交叉验证对整个数据集优化得到的平均精度就是我们的测试精度，然后使用贝叶斯得到的最佳超参数重新训练整个数据集，得到最终的模型，因为所有数据都用了，所以此时最终模型的性能无法量化，直接进行实际应用？是这样的吗？
关于深度学习的滞后性问题
lygaily: 不过我也觉得如果特征足够多，数据足够多，滞后性会减轻，但彻底没有是不可能的
关于深度学习的滞后性问题
lygaily: 我觉得还是做分类更有意义。做回归预测解释性不好，对方向的预测也总会滞后，我很认可你说的说法。
深度学习实验结果可复现所需设置 - 随机数等内容设置
Rococo-W: 楼主现在代码这块貌似不行了。K。set_session那里一直报错没有set_session

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。