海量高维数据与纬度约减

最新推荐文章于 2021-03-18 04:45:18 发布

dzysunshine

最新推荐文章于 2021-03-18 04:45:18 发布

阅读量483

点赞数

分类专栏：机器学习 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dzysunshine/article/details/89925401

版权

机器学习同时被 2 个专栏收录

46 篇文章

订阅专栏

10 篇文章

订阅专栏

文章目录

1.为什么要数据降维？
2.为什么能数据降维？
3.SVD（奇异值分解）
4.SVD进行降维
5.SVD降维的特点
6.CUR分解

1.为什么要数据降维？

海量数据太大，不得不降维
可以使简单的模型运算的更快，更容易理解，更容易维护
优质的降维数据可以在使用不是最优的模型参数的情况下得到不错的预测结果

2.为什么能数据降维？

在这里插入图片描述
可以假设，数据实际上是存在或者靠近一个低维子空间中，子空间的坐标轴能够有效地表达这个数据。

可以复习下矩阵的秩

第三行可以用第一行减去第二行得到，因此第三行就可以变换为0，秩就为2。

3.SVD（奇异值分解）

在这里插入图片描述
将矩阵A变为三个矩阵相乘，下图表示出来更加形象。

SVD的性质

对于一个用户看电影的例子来说：

U：用户-主题的相似矩阵，
T：电影主题的相似矩阵，
∑：其对角元素是每一个主题的强度

4.SVD进行降维

SVD怎么进行降维？能够精确到什么程度？
把 ∑ 中最小的奇异值设为0。
在这里插入图片描述

弗罗宾尼斯范数就是表示的两个矩阵的差值的大小。

会发现SVD和PCA的推导很相似
在这里插入图片描述

5.SVD降维的特点

奇异向量：每一个奇异向量是所有输入矩阵的行向量或列向量的线性组合
奇异向量是稠密的

6.CUR分解

在这里插入图片描述

SVD与CUR对比

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。