降维算法--PCA理论、公式推导

huobumingbai1234

已于 2022-06-01 20:45:44 修改

阅读量2.2k

点赞数

分类专栏：机器学习 python 文章标签：降维 PCA 特征选择

于 2018-12-08 17:55:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huobumingbai1234/article/details/84781220

版权

机器学习同时被 2 个专栏收录

15 篇文章

订阅专栏

7 篇文章

订阅专栏

一、降维算法的主要的目的

1、降维可以减少数据共线性，减少冗余特征，提高算法运行效率

2、可视化需要

二、主要的降维算法

三、降维算法的主要思想

在高维数据中，有一部分特征是不带有有效信息的，还有一部分特征之间存在共线性(特征间有线性关系)，我们需要过滤掉这一部分特征。

PCA算法中，我们用方差表示特征是不是包含更多的信息

方差公式，：

（这里使用的是样本方差公式，除以n-1而不是n是为了样本方差的无偏估计，想深入了解为什么的可以看一下这个文章统计学---之样本方差与总体方差的区别_zxyhhjs2017的博客-CSDN博客_样本方差与总体方差的关系）

四、降维的主要步骤

1、输入原数据(m,n)，找出n个特征向量的n维空间

2、决定降维后的特征数量k

3、通过某种变化，找出n个新的特征向量以及构成的新的n维空间

4、找出原始数据在新特征空间V中的n个新特征向量上对应的值，即将数据映射到新的空间中

5、选出前K个信息量最大的特征，删掉没有选中的特征，即将n维空间降为了k维

五、PCA

PCA和SVD主要是上述第3个步骤的处理思路不同，PCA使用方差作为衡量指标，使用特征值分解找出空间V

PCA目标函数推导：

过程2-将样本归0化：

然后我们的目标就是这个样子：

然后我们的目标函数这样表示：

然后我们手写推导下目标函数的解：

六、降维和特征选择的比较

特征选择是从已有特征中选取特征较多的，选取之后特征仍然具有可解释性，特征还是原来的特征

降维是将已有的特征进行压缩，降维之后的特征和原来的特征都不相同，虽然带有原来数据的信息

降维是特征创造(feature construction)的一种

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。