一、降维算法的主要的目的
1、降维可以减少数据共线性,减少冗余特征,提高算法运行效率
2、可视化需要
二、主要的降维算法
三、降维算法的主要思想
在高维数据中,有一部分特征是不带有有效信息的,还有一部分特征之间存在共线性(特征间有线性关系),我们需要过滤掉这一部分特征。
PCA算法中,我们用方差表示特征是不是包含更多的信息
方差公式,:
(这里使用的是样本方差公式,除以n-1而不是n是为了样本方差的无偏估计,想深入了解为什么的可以看一下这个文章统计学---之样本方差与总体方差的区别_zxyhhjs2017的博客-CSDN博客_样本方差与总体方差的关系)
四、降维的主要步骤
1、输入原数据(m,n),找出n个特征向量的n维空间
2、决定降维后的特征数量k
3、通过某种变化,找出n个新的特征向量以及构成的新的n维空间
4、找出原始数据在新特征空间V中的n个新特征向量上对应的值,即将数据映射到新的空间中
5、选出前K个信息量最大的特征,删掉没有选中的特征,即将n维空间降为了k维
五、PCA
PCA和SVD主要是上述第3个步骤的处理思路不同,PCA使用方差作为衡量指标,使用特征值分解找出空间V
PCA目标函数推导:
过程2-将样本归0化:
然后我们的目标就是这个样子:
然后我们的目标函数这样表示:
然后我们手写推导下目标函数的解:
六、降维和特征选择的比较
特征选择是从已有特征中选取特征较多的,选取之后特征仍然具有可解释性,特征还是原来的特征
降维是将已有的特征进行压缩,降维之后的特征和原来的特征都不相同,虽然带有原来数据的信息
降维是特征创造(feature construction)的一种