降维与度量学习

城府阳光

于 2024-08-12 19:47:08 发布

阅读量663

点赞数 20

文章标签：学习

本文链接：https://blog.csdn.net/qq_45632142/article/details/140478466

版权

k邻*（KNN）学习是一种常用的监督学习，懒惰学习的代表。通常在分类任务中使用“投票法”，即选择k个样本中出现最多的类别标记作为预测结果；回归任务中使用“*均法”。还可基于距离远*加权*均或者加权投票。

由于knn在多维的时候会使样本数目达到天文数字，高维度空间会给距离计算带来巨大的麻烦，甚至连内积都不容易。高维出现的样本稀疏、距离计算等困难是所有机器学习共同面临的障碍，被称为“维数灾难”，因此需要通过某种数学变换将高维属性空间转变为低维子空间。

若要求原始空间样本距离在低维空间得到保持，即“多维缩放”（MDS）。MDS算法流程如下：

推出：

特点：具有最*重构性和最大可分性。最*重构性：样本点到这个超*面足够*；最大可分性：样本点在这个超*面上投影尽可能分开。

主成分分析（PCA），对协方差矩阵进行特征值分解，求得的特征值排序：

λ1 ≥ λ2 ≥ ···≥λd，再取前d个特征值对应的特征向量构成W = (w1, w2 ··· wd’)，算法描述如下：

降维的维数d’通过对k*邻或其他开销较小的学习器进行交叉验证选取d’的值。对于PCA还可从重构的角度设置重构阈值，例如t=95%,然后选取下式成立的最小d’：

PCA仅保留投影矩阵W与样本均值向量即可将新样本投影至低维空间。降维导致d-d’个特征值的特征向量被舍弃。一方面舍弃的这部分信息能使样本采样密度增大，另一方面最为的特征值对应的特征向量往往与在噪声有关，舍弃在一定程度上起到了去噪效果。

线性降维假设从高维到低维的映射是线性的，然而现实任务中可能需要非线性映射来低维嵌入。结合下面的例子解释，样本点从二维空间中采样后以S型曲面嵌入到三维空间。若对三维空间直接进行降维，则将丢失原本的低维结构。原本采样的低维空间称为本真低维空间。

非线性降维的常用方法是基于核技巧对线性降维方法，比如KPCA(核主成分分析)。

假设我们将在高维特征空间把数据投影到由W确定的超*面上，即PCA欲求解

其中zi是Xi在高维空间中的像。

易知

。

其中

假设样本由高维通过映射函数为φ，即zi为φ(x),则

一般情况下不清楚φ(x)函数，引入核函数

化简得

其中K为κ对应的核矩阵，(K)ij=κ(xi,xj),A=(α1; α2; α3···αm)

对于新样本x投影后的第j（j=1,2···d’）为坐标为

“流型”在局部可以通过欧式距离进行计算。若低维流型嵌入到高维空间中，看似复杂但局部仍具有欧式空间的性质。因此可以在局部建立降维映射关系，再设法将局部映射推广到全局。

等度量映射认为低维嵌入到高维后，直接在高维空间计算直线距离不准确。低维嵌入流形上两点间的距离是“测地线”距离。

计算测地距离的方法：对每个点基于欧氏距离找出临*点，建立*邻连接图。在计算*邻连接图上计算任意两点间的最短距离著名算法Dijkstra算法和floyed算法。得到任意两点距离之后，通过MDS计算低维空间坐标。

得到新样本之后，将高维空间坐标做输入，低维空间坐标做输出，训练一个回归学习器来进行预测。

对*邻图的构建有两种做法：指定紧邻点数；指定距离阈值。

机器学习中高维数据进行降维的主要目的是希望找到一个合适的低维空间，使得学习效果比原始空间性能更好。每个空间对应了在样本属性上的一个距离度量，寻找合适的空间就是寻找一个合适的距离度量。度量学习尝试“学习”出一个合适的距离度量。

对两个d维样本xi和xj,他们的*方欧氏距离可以写成

假定不同属性的重要性不同，引入属性权重w得到

w=diag(w)是一个对角矩阵,W可通过学习确定，经过变化W替换成一个普通的半正定矩阵M,于是得到马氏距离，度量学习则是对M“度量矩阵”进行学习。

关注