这里介绍第二种无监督学习方法,叫做降维(Dimensionality Reduction)
一、目标1:数据压缩Data Compression
由于可能存在许多冗余特征量,或者说特征高度相关,所以需要减少特征量的数量。

so如果允许我们通过投影这条绿线上所有的原始样本,来近似原始的数据集,那么我只需要用一个数就能表示每个训练样本的位置,这样就能把内存的需求减半,同时这将允许我们的学习算法运行的更快。
二、目标2可视化Visualization
进行数据降维处理,我们可以容易地实现高维数据可视化——将其降为三维甚至二维。这种情况下我们需要找到新的特征量z1,z2(and perhaps z3)来概括其他特征量。
例如:有一百多种关于国家经济的特征量,我们也许可以把它们概括为新的特征量“经济活跃度”


本文介绍了降维技术中的主成分分析(PCA),包括PCA的目标——数据压缩和可视化,PCA的原理及步骤,以及PCA的应用场景如加快学习速度和数据可视化。PCA寻找低维投影以最小化投影误差,而非线性回归。
最低0.47元/天 解锁文章
775

被折叠的 条评论
为什么被折叠?



