机器学习十-降维与度量学习

1 k邻近学习

         k邻近(KNN)学习是一种常用的监督学习,懒惰学习的代表。通常在分类任务中使用“投票法”,即选择k个样本中出现最多的类别标记作为预测结果;回归任务中使用“平均法”。还可基于距离远近加权平均或者加权投票。

1214769-20180305160000237-1693924722.png

2 低维嵌入

         由于knn在多维的时候会使样本数目达到天文数字,高维度空间会给距离计算带来巨大的麻烦,甚至连内积都不容易。高维出现的样本稀疏、距离计算等困难是所有机器学习共同面临的障碍,被称为“维数灾难”,因此需要通过某种数学变换将高维属性空间转变为低维子空间。

         若要求原始空间样本距离在低维空间得到保持,即多维缩放MDS)。MDS算法流程如下:                          

1214769-20180305160000442-83581703.png

1214769-20180305160000559-185023190.png

1214769-20180305160000786-1161886506.png

推出:1214769-20180305160000923-444129848.png

1214769-20180305160001107-386291995.png

3 主成分分析

         特点:具有最近重构性和最大可分性。最近重构性:样本点到这个超平面足够近;最大可分性:样本点在这个超平面上投影尽可能分开。

         主成分分析(PCA),对协方差矩阵进行特征值分解,求得的特征值排序:

λ1 λ2   ···≥λd,再取前d个特征值对应的特征向量构成W = (w1, w2 ··· wd’),算法描述如下:

1214769-20180305160001339-882030469.png

         降维的维数d’通过对k近邻或其他开销较小的学习器进行交叉验证选取d’的值。对于PCA还可从重构的角度设置重构阈值,例如t=95%,然后选取下式成立的最小d’

1214769-20180305160001500-1179205907.png

         PCA仅保留投影矩阵W与样本均值向量即可将新样本投影至低维空间。降维导致d-d’个特征值的特征向量被舍弃。一方面舍弃的这部分信息能使样本采样密度增大,另一方面最为的特征值对应的特征向量往往与在噪声有关,舍弃在一定程度上起到了去噪效果。

4 核化线性降维

         线性降维假设从高维到低维的映射是线性的,然而现实任务中可能需要非线性映射来低维嵌入。结合下面的例子解释,样本点从二维空间中采样后以S型曲面嵌入到三维空间。若对三维空间直接进行降维,则将丢失原本的低维结构。原本采样的低维空间称为本真低维空间。

1214769-20180305160001764-262457863.png

非线性降维的常用方法是基于核技巧对线性降维方法,比如KPCA(核主成分分析)

         假设我们将在高维特征空间把数据投影到由W确定的超平面上,即PCA欲求解

1214769-20180305160002012-1540600031.png其中ziXi在高维空间中的像。

易知1214769-20180305160002153-527314574.png

其中1214769-20180305160002307-1628896560.png假设样本由高维通过映射函数为φ,即ziφ(x),

1214769-20180305160002479-1988663001.png

1214769-20180305160002661-605930447.png

一般情况下不清楚φ(x)函数,引入核函数

1214769-20180305160002919-321347420.png

化简得

1214769-20180305160003044-1945460515.png

 

其中K为κ对应的核矩阵,(K)ij=κ(xi,xj),A=(α1; α2; α3···αm)

对于新样本x投影后的第jj=1,2···d’)为坐标为

1214769-20180305160003192-876201098.png

1214769-20180305160003320-1205584631.png

5 流形学习

         “流型在局部可以通过欧式距离进行计算。若低维流型嵌入到高维空间中,看似复杂但局部仍具有欧式空间的性质。因此可以在局部建立降维映射关系,再设法将局部映射推广到全局。

5.1 等度量映射

         等度量映射认为低维嵌入到高维后,直接在高维空间计算直线距离不准确。低维嵌入流形上两点间的距离是测地线距离。

1214769-20180305160003620-29164443.png

         计算测地距离的方法:对每个点基于欧氏距离找出临近点,建立近邻连接图。在计算近邻连接图上计算任意两点间的最短距离著名算法Dijkstra算法和floyed算法。得到任意两点距离之后,通过MDS计算低维空间坐标。

1214769-20180305160003886-384998045.png

得到新样本之后,将高维空间坐标做输入,低维空间坐标做输出,训练一个回归学习器来进行预测。

         对近邻图的构建有两种做法:指定紧邻点数;指定距离阈值。

5.2 局部线性嵌入

6 度量学习

         机器学习中高维数据进行降维的主要目的是希望找到一个合适的低维空间,使得学习效果比原始空间性能更好。每个空间对应了在样本属性上的一个距离度量,寻找合适的空间就是寻找一个合适的距离度量。度量学习尝试学习出一个合适的距离度量。

         对两个d维样本xix,他们的平方欧氏距离可以写成

1214769-20180305160004052-1114176790.png

         假定不同属性的重要性不同,引入属性权重w得到

1214769-20180305160004228-1867583723.png

         w=diag(w)是一个对角矩阵,W可通过学习确定,经过变化W替换成一个普通的半正定矩阵M,于是得到马氏距离,度量学习则是对M“度量矩阵进行学习。

1214769-20180305160004411-827815784.png





转载于:https://www.cnblogs.com/Rxma1805/p/8509478.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值