数据降维 初步理解

1、降维的概念

降维的目标是用一组维度为d的向量表示维度为D的向量的有用信息(d < D),例如面对稀疏矩阵,为了防止维数太高导致计算量的爆炸增长,就可以采用降维的策略。数据可以降维说明原始数据有重复的或无用的信息,降维后的数据保留大部分重要信息,从而可以代替原始数据输入。

2、降维方法

2.1、PCA主成分分析

对原始特征空间的重构
中心:将原本特征空间线性相关的变为线性无关(正交)的。
以下两种角度来实现对原始特征空间的重构

  • 最大投影方差
  • 最小重构距离

z i = W ⊤ x i z_i =W^\top{x_i} zi=Wxi x x x维数为D, z z z维数为d, W W W D ∗ d D*d Dd

中心化: x i − x ‾ x_i-\overline{x} xix平移,使向量均值为0
单位向量 u i u_i ui看作是新的坐标轴方向,数据集的向量点映射到 u i u_i ui上,这个新的方向就叫主成分(第一主成分),后面的主成分也以一样的标准,要求是和前面的主成分垂直。最大投影方差即意味着向量最小的线性相关性
在这里插入图片描述
图源:视频

括号内表示中心化后的向量在单位向量 u i u_i ui上的投影。
S表示协方差矩阵, ∑ i = 1 N ( x i − x ‾ ) 2 N \frac{\sum_{i=1}^N{({x_i-\overline{x}})^2}}{N} Ni=1N(xix)2可以转化为协方差矩阵S
J即表示投影方差。转化为J的优化问题,用拉格朗日方程求得 u i u_i ui就是向量的特征向量。

如果一个矩阵有特征向量和特征值,那么它的每个维度都有一对特征向量和特征值。矩阵的主成分是由其协方差矩阵的特征向量,按照对应的特征值大小排序得到的。
降至q维,就取特征值最大的q个特征向量。

参考资料:
PCA理解
视频
拉格朗日乘数
协方差

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值