西瓜书-PCA

最新推荐文章于 2024-02-03 14:01:40 发布

weixin_34235371

最新推荐文章于 2024-02-03 14:01:40 发布

阅读量496

点赞数

文章标签：人工智能 matlab 数据结构与算法

原文链接：https://juejin.im/post/5cc66a566fb9a032401903d2

版权

PCA和线性回归的区别：左边是线性回归，右边是PCA，PCA算的是投影误差的平方

引用 www.zhihu.com/question/36…

t-SNE vs PCA

至于t-SNE为啥牛，这里给两个对比图片，然后我们再回到PCA，以后有机会再扩展！

t-SNE vs PCA：可以看到线性特征表达的局限性

t-SNE 优于已有非线性特征表达 Isomap, LLE 和 Sammon mapping

依然还记得2004年左右Isomap横空出世的惊奇，再看t-SNE的诞生，真是膜拜！也正是Hinton对PCA能理解到他的境界，他才能发明t-SNE。

PCA

首先我们思考如下问题，对于正交属性空间(对2维空间即为直角坐标系)中的样本点，如何用一个超平面(直线/平面的高维推广)对所有样本进行恰当的表达？

事实上，若存在这样的超平面，那么它大概应具有这样的性质：

最近重构性 : 样本点到这个超平面的距离都足够近；

最大可分性：样本点在这个超平面上的投影能尽可能分开。

下面我们以3维降到2维为例，来试着理解为什么需要这两种性质。图10-4给出了样本在3维空间的分布情况，其中图(2)是图(1)旋转调整后的结果。在10.1节我们默认以红色线所画平面(不妨称之为平面s1)为2维平面进行投影(降维)，投影结果为图10-5的(1)所示，这样似乎还不错。那为什么不用蓝色线所画平面（不妨称之为平面s2）进行投影呢? 可以想象，用s2投影的结果将如图10-5的(2)所示。

图10-4 样本在3维正交空间的分布

由图10-4可以很明显的看出，对当前样本而言，s1平面比s2平面的最近重构性要好（样本离平面的距离更近）；由图10-5可以很明显的看出，对当前样本而言，s1平面比s2平面的最大可分性要好(样本点更分散)。不难理解，如果选择s2平面进行投影降维，我们会丢失更多（相当多）的特征量信息，因为它的投影结果甚至可以在转化为1维。而在s1平面上的投影包含更多的信息(丢失的更少)。

这样是否就是说我们从3维降到1维一定会丢失相当多的信息呢? 其实也不一定，试想，如果平面s1投影结果和平面s2的类似，那么我们可以推断这3个特征量本质上的含义大致相同。所以即使直接从3维到1维也不会丢失较多的信息。这里也反映了我们需要知道如何选择到底降到几维会比较好。

让我们高兴的是，上面的例子也说明了最近重构性和最大可分性可以同时满足。更让人兴奋的是，分别以最近重构性和最大可分性为目标，能够得到PCA的两种等价推导。

一般的，将特征量从n维降到k维：

以最近重构性为目标，PCA的目标是找到k个向量，将所有样本投影到这k个向量构成的超平面，使得投影的距离最小（或者说投影误差projection error最小）。

以最大可分性为目标，PCA的目标是找到k个向量，将所有样本投影到这k个向量构成的超平面，使得样本点的投影能够尽可能的分开，也就是使投影后的样本点方差最大化。

最近重构性

最大可分性

优化目标

所以协方差矩阵 X^TX 进行特征值分解，将求得的特征值排序。

另一个角度

PCA 也可以看做是逐一取方差最大的方向，先对协方差矩阵 $\sum _i^m {x_ix_i^T}$

如何选取维数

核化线性降维

转载于:https://juejin.im/post/5cc66a566fb9a032401903d2

weixin_34235371

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。