PCA主成分分析、梯度上升

目的

降维,为使得特征更明显,故样本间距离相对越大越好(聚在一对没法分析)

PCA理论基础

用方差定义样本间距离;同时由于是计算方差(距离)最大值,使用梯度上升的方法,且不再数据归一化,因为归一化后数据方差为0,使得计算无意义

方差计算:这里先对数据demean:即都减去自己的均值;上图变为下图;目的是简化计算式,更容易用矩阵运算;

找主成分w

w的一行即图1中的轴,使得样本映射到轴上的方差最大;同时为了简单计算,w模始终为1;

这里的w其实是x的一个特征向量构成的矩阵,一行即一个特征向量,样本在主成分上的值即特征向量对应的特征值。

x在主成分上的值(特征值)求法

找最大主成分,即找最大特征值对应的特征向量

区别线性回归

PCA是样本点在轴是上映射的方差最大,线性回归是样本点与对应预测的回归线的y值差最小

梯度上升的梯度求法,得到的是一个n*1的梯度向量

多元降维

先求第一个主成分,之后减去第一个主成分上的分量

Xproject即在第一个主成分w上的分量;对X'再求主成分即第二主成分

以上方法始终是对高维数据进行运算分析,未降维

降维操作

原本数据x是n维度的(列数),有m个样本(行数),Wk是前k个主成分,k个主成分(行数),每个主成分坐标轴由n个元素确定(n列),X乘Wk的转置,即降维到k维Xk

Xk乘Wk,即又扩到n维,但是数据与原来不同,即扩位损失

紫色为原本的二维数据,红色为降维再扩位后的数据,差异即损失

解释方差比率,即降维后的数据(主成分)能解释多少比例样本

PCA实践

PCA降到二维,预测成功率低

查看主成分能代表多少样本方法

应用

降噪

原本数据

选择能表示50%的主成分数,降维在返回后数据如下。完成了降噪

特征脸

人脸数据

样本随着主成分数增加,数据变化情况

主成分(特征向量)前面的,在这个主成分方向上的映射值越大,即特征向量对应的特征值越大,反过来也说明这个主成分约主要。

其他

始终要有对向量的for循环运算改为矩阵运算的思路

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值