1,数据压缩
下面咱们学习第二种无监督学习,降维。要降维的原因是,一,数据压缩,数据压缩不仅允许我 们压缩数据,可以使用较少的计算机内存或磁盘空间,但它也让我们加快我们的学习算法。
降维是什么?
比如说我们收集的数据集有很多特征,先绘制两个:
假设我们未知两个的特征:?1:长度:用厘米表示;?2:是用英寸表示同一物体的长度。
将数据从二维降至一维: 假使我们要采用两种不同的仪器来测量一些东西的尺寸,其 中一个仪器测量结果的单位是英寸,另一个仪器测量的结果是厘米,我们希望将测量的结果 作为我们机器学习的特征。现在的问题的是,两种仪器对同一个东西测量的结果不完全相等 (由于误差、精度等),而将两者都作为特征有些重复,因而,我们希望将这个二维的数据 降至一维。
将数据从三维降至二维: 这个例子中我们要将一个三维的特征向量降至一个二维的特 征向量。过程是与上面类似的,我们将三维向量投射到一个二维的平面上,强迫使得所有的 数据都在同一个平面上,降至二维的特征向量。
2,数据可视化
在许多及其学习问题中,如果我们能将数据可视化,我们便能寻找到一个更好的解决方 案,降维可以帮助我们。
假使我们有有关于许多不同国家的数据,每一个特征向量都有 50 个特征(如 GDP,人 均 GDP,平均寿命等)。如果要将这个 50 维的数据可视化是不可能的。使用降维的方法将 其降至 2 维,我们便可以将其可视化了
这样做的问题在于,降维的算法只负责减少维数,新产生的特征的意义就必须由我们自 己去发现了。
3,主成分分析问题
降维算法中最常见的额就是主成分分析(PCA);
在 PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据 都投射到该向量上时,我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点 的向量,而投射误差是从特征向量向该方向向量作垂线的长度。
在应用PCA之前,常规做法是进行均值归一化和特征规范化,使两个特征的均值为0;
问题是要将?维数据降至?维,目标是找到向量? (1) ,? (2) ,...,? (?)使得总的投射误差最小。主成分分析与现行回归是两种不同的算法。主成分分析最小化的是投射误差(Projected Error),而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果,而主成分分析 不作任何预测。
上图中,左边的是线性回归的误差(垂直于横轴投影),右边则是主要成分分析的误差 (垂直于红线投影)。
PCA 将?个特征降维到?个,可以用来进行数据压缩,如果 100 维的向量最后可以用 10 维来表示,那么压缩率为 90%。同样图像处理领域的 KL 变换使用 PCA 做图像压缩。但 PCA 要保证降维后,还要保证数据的特性损失最小。
PCA 技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要 性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模 型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。
PCA 技术的一个很大的优点是,它是完全无参数限制的。在 PCA 的计算过程中完全不 需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与 用户是独立的。
4,主成分分析算法
PCA 减少?维到?维:
第一步是均值归一化。我们需要计算出所有特征的均值,然后令 ?? = ?? − ??。如果特 征是在不同的数量级上,我们还需要将其除以标准差 ? 2。
第二步是计算协方差矩阵(covariance matrix)?:
第三步是计算协方差矩阵?的特征向量(eigenvectors):
对于一个 ? × ?维度的矩阵,上式中的?是一个具有与数据之间最小投射误差的方向向 量构成的矩阵。如果我们希望将数据从?维降至?维,我们只需要从?中选取前?个向量,获 得一个? × ?维度的矩阵,我们用???????表示,然后通过如下计算获得要求的新特征向量,;
5,选择主成分的数量
主要成分分析是减少投射的平均均方误差:
训练集的方差为:
我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的?值。
如果我们希望这个比例小于 1%,就意味着原本数据的偏差有 99%都保留下来了,如果 我们选择保留 95%的偏差,便能非常显著地降低模型中特征的维度了。
我们可以先令? = 1,然后进行主要成分分析,获得和?,然后计算比例是否小于 1%。如果不是的话再令? = 2,如此类推,直到找到可以使得比例小于 1%的最小? 值(原因 是各个特征之间通常情况存在某种相关性)。
还有一些更好的方式来选择?,当我们在 Octave 中调用“svd”函数的时候,我们获得三 个参数:[U, S, V] = svd(sigma)。其中的?是一个? × ?的矩阵,只有对角线上有值,而其它单元都是 0,我们可以使用这 个矩阵来计算平均均方误差与训练集方差的比例:
也就是:
在经过数据压缩以后,我们可以采用下面的方法近似的取得原有的特征:
6,重建的压缩表示(恢复数据)
给定100维的数据之后,怎么回到你原来的表示?
在pca算法中,我们可能有这样的一个样本:
像数据中的在一维上边的投影,可以用来表示,现在给你怎么得到?
压缩的时候是这样的:,相反的方程是:
7,主成分分析法的应用建议
假使我们正在针对一张 100×100 像素的图片进行某个计算机视觉的机器学习,即总共 有 10000 个特征。这样特征很多的时候,你的计算会很消耗时间,
1. 第一步是运用主要成分分析将数据压缩至 1000 个特征
2. 然后对训练集运行学习算法。
3. 在预测时,采用之前学习而来的???????将输入的特征?转换成特征向量?,然后再进 行预测
错误的使用情况:将其用于减少过 拟合(减少了特征的数量)。这样做非常不好,不如尝试正则化处理。原因在于主要成分分 析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非 常重要的特征。然而当我们进行正则化处理时,会考虑到结果变量,不会丢掉重要的数据。另一个常见的错误是,默认地将主要成分分析作为学习过程中的一部分,这虽然很多时 候有效果,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多 内存)才考虑采用主要成分分析。