这个是在研一的概率论课上做的实验报告,PCA算法分析,对降维进行了一定程度的了解,并用PCA实现降维,具体语言是Python。
第一章 概率论与随机过程在降维中的应用——PCA算法分析
1.1 PCA背景
1.1.1降维的意义
在大数据集上进行复杂的分析和挖掘需要很长的时间,数据降维产生更小但保持数据完整性的新数据集,在降维后的数据集上进行分析和挖掘将更有效率
数据降维的意义:
1)降低无效、错误的数据对建模的影响,提高建模的准确性。
2)少量且具有代表性的数据将大幅缩减数据挖掘所需要的时间。
3)降低存储数据的成本。
1.1.2降维的作用
- 降低时间复杂度和空间复杂度
- 节省了提取不必要特征的开销
- 去掉数据集中夹杂的噪声
- 较简单的模型在小数据集上有更强的鲁棒性
- 当数据能有较少的特征进行解释,我们可以更好的解释数据,使得我们可以提取知识。
- 实现数据可视化
1.1.3降维的方法
降维方法分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。如图1-1所示。
1、线性降维方法:PCA 、ICA LDA、LFA、LPP(LE的线性表示)
2、非线性降维方法:
(1)基于核函数的非线性降维方法:KPCA 、KICA、KDA
(2)基于特征值的非线性降维方法(流型学习):ISOMAP、LLE、LE、LPP、LTSA、MVU