PCA 个人总结

最新推荐文章于 2021-01-27 13:34:52 发布

冬日and暖阳

最新推荐文章于 2021-01-27 13:34:52 发布

阅读量547

点赞数

分类专栏：降维&&manifold MATLAB 笔记文章标签： matlab pca 函数降维

本文链接：https://blog.csdn.net/qq_29007291/article/details/54579905

版权

MATLAB 笔记同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

降维&&manifold

2 篇文章 0 订阅

订阅专栏

PCA 总结

从个人角度,即图像处理的角度来总结,并不适用所有学科的理解。

一： motivation(目标):

1 去掉冗余维度

(维度也就是指feature, attribute,)

所谓冗余特征,比如我想用一堆特征表示人,用以下三个特征来描述一个人

[年龄, 身高(m), 身高(cm)]

35 1.71 171

26 1.86 186

20 1.68 168

56 1.70 170

.. .....................................................

在本例中很明显,第二个feature(维度)和第三feature(维度)并不是全部需要的,这就是所谓的冗余feature(维度),冗余feature一方面浪费空间，尤其在大规模问题中；另一方面，会对随后的任务造成干扰。有人肯会说,这很明显就能看出来,在一开始选的时候就不会同时选身高(m),身高(cm)这两个feature来用。问题是对于输入是一幅图片的neutral network,所谓feature也就是图片的每一个pixel。对于一幅100*100的图片，展开成列向量也就是10000, 你还能一眼看出哪一个是不必要的feature？总之在我们观测高维数据的时候，为了观测的“大而全”,以及我们这些“低维”生物面对高维数据的局限性，引入冗余在所难免。而且图像具有局部自相似性，必然有大量冗余，去冗余在图像识别等应用中，使用很广。

2 去掉噪声维度(噪声feature)

所谓的噪声feature,见下面这个例子

Figure 1 弹簧球，不关注其初始位置，初始状态

现在我想描述这个弹簧球的运动，如果一切条件都是理想的，我们清楚的知道它只会在水平线上运动(这个也就是弹簧球运动的feature)，可是我们并不总是对所要观察的事物有着非常清楚的认识，情况也不可能是理想的。现在我们通过摄像机的记录来推测弹簧球的运动(也就是通过摄像机的记录来描述弹簧球的feature)。

我们用每秒100张的摄像机对其进行拍照，记录它在一内秒钟的各位置，我们知道理想情况下是这样

Figure 2 理想情况下，1秒钟拍摄的100张图片，弹簧球在每一张图片中的位置

对于这样的运动位置，每一个点用一个1维数据(仅横坐标)描述就行了，

可是实际上假设桌面坑坑洼洼(实际上不仅如此，有更多的干扰因素)，则会造成下面的运动情况

Figure 3 实际情况下，1秒钟拍摄的100张图片，弹簧球在每一张图片中的位置

对此，我们对于每个运动位置不得不用一个2维向量(横纵坐标)来表示，实际上弹簧球只在水平运动，但由于噪声(坑坑洼洼等)的干扰，增加了对于样本的描述(i.e.相对于理想情况多了1个特征)。噪声feature(维度)由此产生。对于更多维度，比如那些高达上万维（i.e.上万个feature）的数据，其引入的噪声feature(维度)可能更多...

总结：PCA的目的通过统计特性(即通过多个样本)更好的表示每一个样本

二 Assumptions/Limitation

待续..