//个人学习记录,如有错误请指正
//大部分图片公式来源于《hand on machine learning with scikit-learn and tensorflow》
//部分公式来源于互联网
在机器学习中,我们通常需要处理大量的数据,当特征数量过多时,我们会遇到维度爆炸的问题。维度爆炸第一意味着数据量会非常多,数据会占用大量空间,第二数据过多还会造成训练时长过长,第三维度过度时,数据集容易非常稀疏,容易造成过拟合。
降低维度的两种主要方法:投影与流形学习
从理论上将,有两种比较直观的降维方法。
第一种是投影。这种比较容易理解,我们通常是直接将所有数据直接投影到一个超平面上,以达到降低维度的目的。但是如果数据所属的子空间经历过扭曲和转动,那么投影可能就并不是一个很好的方案。
第二种就是流形学习。流行学习依赖于流形假设,它认为现实世界的高维数据大都是靠近一个更低维的流形,这种假设在实践中常常被证实。而为了降维我们要做的就是将在高维空间中的低维流形进行展开。