降维算法--PCA理论、公式推导

 

一、降维算法的主要的目的

       1、降维可以减少数据共线性,减少冗余特征,提高算法运行效率

       2、可视化需要

二、主要的降维算法

三、降维算法的主要思想

        在高维数据中,有一部分特征是不带有有效信息的,还有一部分特征之间存在共线性(特征间有线性关系),我们需要过滤掉这一部分特征。

        PCA算法中,我们用方差表示特征是不是包含更多的信息

方差公式,:

(这里使用的是样本方差公式,除以n-1而不是n是为了样本方差的无偏估计,想深入了解为什么的可以看一下这个文章统计学---之样本方差与总体方差的区别_zxyhhjs2017的博客-CSDN博客_样本方差与总体方差的关系

四、降维的主要步骤

1、输入原数据(m,n),找出n个特征向量的n维空间

2、决定降维后的特征数量k

3、通过某种变化,找出n个新的特征向量以及构成的新的n维空间

4、找出原始数据在新特征空间V中的n个新特征向量上对应的值,即将数据映射到新的空间中

5、选出前K个信息量最大的特征,删掉没有选中的特征,即将n维空间降为了k维

五、PCA

PCA和SVD主要是上述第3个步骤的处理思路不同,PCA使用方差作为衡量指标,使用特征值分解找出空间V

PCA目标函数推导:

过程2-将样本归0化:

然后我们的目标就是这个样子:

然后我们的目标函数这样表示:

然后我们手写推导下目标函数的解:

六、降维和特征选择的比较

特征选择是从已有特征中选取特征较多的,选取之后特征仍然具有可解释性,特征还是原来的特征

降维是将已有的特征进行压缩,降维之后的特征和原来的特征都不相同,虽然带有原来数据的信息

降维是特征创造(feature construction)的一种

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值