这里介绍第二种无监督学习方法,叫做降维(Dimensionality Reduction)
一、目标1:数据压缩Data Compression
由于可能存在许多冗余特征量,或者说特征高度相关,所以需要减少特征量的数量。
so如果允许我们通过投影这条绿线上所有的原始样本,来近似原始的数据集,那么我只需要用一个数就能表示每个训练样本的位置,这样就能把内存的需求减半,同时这将允许我们的学习算法运行的更快。
二、目标2可视化Visualization
进行数据降维处理,我们可以容易地实现高维数据可视化——将其降为三维甚至二维。这种情况下我们需要找到新的特征量z1,z2(and perhaps z3)来概括其他特征量。
例如:有一百多种关于国家经济的特征量,我们也许可以把它们概括为新的特征量“经济活跃度”