数据降维初步理解

最新推荐文章于 2024-01-26 19:35:19 发布

CS彩笔

最新推荐文章于 2024-01-26 19:35:19 发布

阅读量2.3k

点赞数

分类专栏：数据科学笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40529377/article/details/100114785

版权

数据科学笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、降维的概念

降维的目标是用一组维度为d的向量表示维度为D的向量的有用信息（d < D），例如面对稀疏矩阵，为了防止维数太高导致计算量的爆炸增长，就可以采用降维的策略。数据可以降维说明原始数据有重复的或无用的信息，降维后的数据保留大部分重要信息，从而可以代替原始数据输入。

2、降维方法

2.1、PCA主成分分析

对原始特征空间的重构
中心：将原本特征空间线性相关的变为线性无关（正交）的。
以下两种角度来实现对原始特征空间的重构

最大投影方差
最小重构距离

$z_i =W^\top{x_i}$ $x$ 维数为D， $z$ 维数为d， $W$ 为 $D * d$

中心化： $x_i-\overline{x}$ 平移，使向量均值为0
单位向量 $u_i$ 看作是新的坐标轴方向，数据集的向量点映射到 $u_i$ 上，这个新的方向就叫主成分（第一主成分），后面的主成分也以一样的标准，要求是和前面的主成分垂直。最大投影方差即意味着向量最小的线性相关性
在这里插入图片描述
图源：视频

括号内表示中心化后的向量在单位向量 $u_i$ 上的投影。
S表示协方差矩阵， $\frac{\sum_{i=1}^N{({x_i-\overline{x}})^2}}{N}$ 可以转化为协方差矩阵S
J即表示投影方差。转化为J的优化问题，用拉格朗日方程求得 $u_i$ 就是向量的特征向量。

如果一个矩阵有特征向量和特征值，那么它的每个维度都有一对特征向量和特征值。矩阵的主成分是由其协方差矩阵的特征向量，按照对应的特征值大小排序得到的。
降至q维，就取特征值最大的q个特征向量。

参考资料：
PCA理解
 视频
 拉格朗日乘数
 协方差

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据降维初步理解

1、降维的概念降维的目标是用一组维度为d的向量表示维度为D的向量的有用信息（d < D），例如面对稀疏矩阵，为了防止维数太高导致计算量的爆炸增长，就可以采用降维的策略。数据可以降维说明原始数据有重复的或无用的信息，降维后的数据保留大部分重要信息，从而可以代替原始数据输入。2、降维方法2.1、PCA主成分分析对原始特征空间的重构中心：将原本特征空间线性相关的变为线性无关（正交）的。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。