维数灾难:
维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。
许多机器学习问题涉及每个训练实例的成千上万甚至数百万个特征。所有这些特征不仅使训练变得极其缓慢,而且还会使找到好的解决方案变得更加困难。这个问题通常称为维度灾难。
降维:
随着特征数量的增多,计算量会变得很大,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征维度的增加先上升后下降。
1.降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关。
2.不存在完全无损的降维,数据降维确实会丢失一些信息。
3.能够加速训练,会轻微降低系统性能;问题变复杂。
为什么要降维高维:
数据增加了运算的难度。高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中,样本复杂度随着维度成指数增长),维度越高,算法的搜索难度和成本就越大。降维能够增加数据的可读性,不利于发掘数据的有意义的结构
降维的主要作用:
减少冗余特征,降低数据维度数据可视化
减少冗余特征:
假设现在有个特征x1用厘米表示身高,x2用英米表示身高,虽然是两个特征,不过表达的都是一个意思。完全可以不要。