为什么要对数据进行降维?
实际应用中的数据一般是高维的,比如手写的数字,如果我们缩放到28×28的图片大小,那么它的维度就是28×28=784维。
举个简单的例子:
下图是手写的1及其对应的图像二维矩阵,数据已经被规范化到[0,1]范围内。
降维的目的有很多,个人觉得最主要的目的有二:
1.为了对数据进行可视化,以便对数据进行观察和探索。
2. 另外一个目的是简化机器学习模型的训练和预测。
我们很难对高维数据具有直观的认识,如果把数据的维度降低到2维或者3维,并且保持数据点的关系,与原高维空间里的关系,保持不变或者近似,我们就可以进行可视化,肉眼来观察数据。
数据经过降维以后,如果保留了原有数据的主要信息,那么我们就可以用降维的数据进行机器学习模型的训练和预测,由于数据量大大缩减,训练和预测的时间效率将大为提高。