数据降维的意义
1.维数灾难
高维数据空间给机器学习算法带来的计算量是十分巨大的。事实上,在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”。
缓解维数灾难的一个重要途径就是降维,即通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,这个子空间内样本密度大幅提高,距离计算也变得更为容易。
为什么能进行降维呢?这是因为在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间的一个低维“嵌入”,在这个低维空间学习起来效率更高,如下图所示。
2.数据可视化
当数据处于高维度时,我们比较难直观地发现其特性和各数据维度的关系。但当通过降维处理使得数据只有两维或者三维时可以通过画图寻找其中存在的规律。
例如下面这个反应各个国家经济发展状态的例子,不同国家对应二维图上的一个点。