PCA 个人总结

PCA  总结

从个人角度,即图像处理的角度来总结,并不适用所有学科的理解。

一: motivation(目标):

1 去掉冗余维度

(维度也就是指feature, attribute,)

所谓冗余特征,比如我想用一堆特征表示人,用以下三个特征来描述一个人

[年龄, 身高(m), 身高(cm)]

35     1.71 171

26     1.86 186

20     1.68     168

56     1.70     170

.. .....................................................

在本例中很明显,第二个feature(维度)和第三feature(维度)并不是全部需要的,这就是所谓的冗余feature(维度),冗余feature一方面浪费空间,尤其在大规模问题中;另一方面,会对随后的任务造成干扰。有人肯会说,这很明显就能看出来,在一开始选的时候就不会同时选身高(m),身高(cm)这两个feature来用。问题是对于输入是一幅图片的neutral network,所谓feature也就是图片的每一个pixel。对于一幅100*100的图片,展开成列向量也就是10000, 你还能一眼看出哪一个是不必要的feature?总之在我们观测高维数据的时候,为了观测的“大而全”,以及我们这些“低维”生物面对高维数据的局限性,引入冗余在所难免。而且图像具有局部自相似性,必然有大量冗余,去冗余在图像识别等应用中,使用很广。


2 去掉噪声维度(噪声feature)

所谓的噪声feature,见下面这个例子


Figure 1 弹簧球,不关注其初始位置,初始状态

现在我想描述这个弹簧球的运动,如果一切条件都是理想的,我们清楚的知道它只会在水平线上运动(这个也就是弹簧球运动的feature),可是我们并不总是对所要观察的事物有着非常清楚的认识,情况也不可能是理想的。现在我们通过摄像机的记录来推测弹簧球的运动(也就是通过摄像机的记录来描述弹簧球的feature)。


我们用每秒100张的摄像机对其进行拍照,记录它在一内秒钟的各位置,我们知道理想情况下是这样


Figure 2   理想情况下,1秒钟拍摄的100张图片,弹簧球在每一张图片中的位置


对于这样的运动位置,每一个点用一个1维数据(仅横坐标)描述就行了,

可是实际上假设桌面坑坑洼洼(实际上不仅如此,有更多的干扰因素),则会造成下面的运动情况


Figure 3   实际情况下,1秒钟拍摄的100张图片,弹簧球在每一张图片中的位置

对此,我们对于每个运动位置不得不用一个2维向量(横纵坐标)来表示,实际上弹簧球只在水平运动,但由于噪声(坑坑洼洼等)的干扰,增加了对于样本的描述(i.e.相对于理想情况多了1个特征)。噪声feature(维度)由此产生。对于更多维度,比如那些高达上万维(i.e.上万个feature)的数据,其引入的噪声feature(维度)可能更多...

总结 :PCA的目的通过统计特性(即通过多个样本)更好的表示每一个样本

二 Assumptions/Limitation

  待续..

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值