第二类无监督学习问题,叫做降维(Dimensionality Reduction)。方法有数据压缩和可视化。
数据压缩:
数据压缩不仅可以减少数据在我们计算机当中的存储空间,还可以加速我们算法的学习过程。
如图所示,我们将三维数据压缩到二维数据。首先我们观察到数据差不多都分布在同一个平面上,因此我们将数据投影到一个二维平面,然后就将可以将三维数据压缩到二维数据。
可视化:
将高维数据降到低维,比如3维或者2维,在进行可视化,便于我们发现找到更好的一个解决方案。
主成分分析(Principal Component Analysis):
试图找到一个低维数据的平面来对高维数据进行投影。拿下图的二维数据作为例子,我们要做的就是找到一条直线,或者说找到一个方向向量,使得所有数据投影到该方向向量的距离之和最短,这也是我们的目标。
更具体的,当我们要将n维数据压缩到k维数据时,我们的目标是寻找到k个向量,使得原始数据投影到这k个向量的距离之和最短。另外,PCA和我们的线性回归看起来尽管很像,但还是有很大不同的。我们的线性回归的总体目标是最小化样本与模型预测值的差距,而PCA是最小化垂直距离,并没有预测值的概念。另外,在线性回归中,我们的数据是有标签的,而我们的PCA中数据是没有标签的。
特征缩放: