流形学习
流形学习认为我们所能观察到的数据实际上是由一个低维流形映射到高维空间上的。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上只需要比较低的维度就能唯一地表示。
流形能够刻画数据的本质,即学习到了“将数据从高维空间降维到低维空间,还能不损失信息”的映射。 那这个映射能够输入原始数据,并输出数据更本质的特征(就像压缩一样,用更少的数据能尽可能多地表示原始数据)。
如上图,如果我们观察到的数据是三维的,但其本质是一个二维流形。图上所标注的两个圈圈,在流形(把卷展开)上本距离非常远,但是用三维空间的欧氏距离来计算则它们的距离要近得多。
举个例子,从北京到上海有多远?你可以找一个地球仪,然后用一把能弯曲的软软的尺子,经过地球仪表面然后测量一下这两个点的距离。但是如果我用一根直线,将地球仪从北京到上海洞穿,测量出一个更短的距离,那肯定是不对的。这说明,尽管你得到的北京和上海的坐标是三维空间坐标(x,y,z),但使用欧氏距离对于“在高维空间展开的低维流型”进行距离的衡量是不正确的。显然对于“从北京到上海的距离”这件事,我们关注的是把三维地球展开成二维平面,然后测量的地表上的距离,而不是三维空间中球面上两个点的欧氏距离,否则就会忽略掉“这是个球面”这个信息。<