基于几条大神链接的理解,总结数据降维处理——PCA

PCA的目的就是在数据特别多而且特征散乱的情况下,找到很少的几个差别很大的特征,丢弃其他差别较小的特征(也可以认为是噪声),这样可以将数据简化又不会丢失太多的特征差别。


在坐标系中表示, 就是找到一个新的坐标系,让这些数据点在坐标轴伤的投影差距最大,看下图:(字丑多担待。。。)


http://blog.csdn.net/zhongkelee/article/details/44064401  http://blog.csdn.net/zhongkejingwang/article/details/42264479   详细过程我觉得这两个可以。

解释一下找到一个新的坐标系的意思:




对于以上描述,用公式表示:

首先定义协方差公式(协方差越大,证明这个变量含有的数据越多):

因为我们要找在什么方向上,协方差最大,所以我们应该定义一个向量去表示方向,所以点在这个方向上的投影定义为:

   

现在,将两个公式整合得出:


我们的目的,就是要找到上面这个表达式的最大值(原因如上,这个数值越大,代表着所蕴含的特征值越大)


求极值问题,可以在这里引入一个拉格朗日因子。

限制条件就是:

w是单位向量(我们需要找到一个单位长度的坐标系),自身的转置乘以自身等于1 。所以得到:

λ
λ1λ1λ1

通过解拉格朗日方程,得到一个等式,这里我们可以看出,问题变成了一个矩阵分解的问题。拉姆达在这里就是特征值。

关于矩阵分解可以参考 https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html  




这个r*r 的矩阵, 前百分之10 包含大多数特征的意思 是 这个特征矩阵的特征值 从左上角到右下角是依次降低的 ( 而值越大,包含的的信息就越多)

所以,通过这个方程 我们只要把不想要的维度舍去即可。



  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值