《机器学习》周志华(西瓜书)学习笔记 第十章 降维与度量学习

本文是《机器学习》第十章的学习笔记,涵盖了降维与度量学习的关键概念。首先介绍了k近邻学习,包括其分类和回归策略。接着探讨了降维方法,如低维嵌入、主成分分析(PCA)、核化线性降维和流形学习,特别是等度量映射和局部线性嵌入。最后,文章讲解了度量学习的重要性,它是寻找合适距离度量以优化学习性能的过程。
摘要由CSDN通过智能技术生成

机器学习

总目录

第十章 降维与度量学习

10.1 K近邻学习

k近邻学习是一种监督学习算法,在给定的训练样本集中,基于某种距离度量,找出与训练集最靠近的 k k k个训练样本,然后基于这k个邻居信息来进行预测。

  • 投票法:通常在分类任务中使用,判别方法是选择这kk个样本中出现最多的类别标记作为预测结果。
  • 平均法:通常在回归任务中使用,判别方法是将这kk个样本的实值输出标记的平均值最为预测结果。
  • 加权平均或加权投票:根据距离远近来决定权重,距离越近,权重越大。

kNN虽然是一种监督学习方法,但是它却没有显式的训练过程,而是当有新样本需要预测时,才来计算出最近的k个邻居,因此kNN是一种典型的懒惰学习方法.

  • 懒惰学习(lazy study):没有显式训练过程,仅把样本保存,训练时间无开销,待收到测试样本后再进行处理
  • 急切学习(eager learning):在训练阶段就对样本进行学习处理的方法

k近邻分类器中,k为不同值时,分类结果也就不同;同时,若采用不同的距离计算方式,则找出的近邻也有显著差别,导致分类结果也显著不同。假设距离计算是恰当的,就是不考虑距离导致的差异性,而就从k这个参数的差异就最近邻分类器在二分类问题上的性能进行分析:
在这里插入图片描述在这里插入图片描述

10.2 低维嵌入

高维情形下,样本数的采样以及距离计算问题。在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为维数灾难(curse of dimensionality)

缓解维数灾难的两个途径:

  1. 特征选择
  2. 降维(dimension reduction)

多维缩放(Multiple Dimensional Scaling, MDS)

目标:要求原始空间样本之间的距离在降维后的低维空间中得以保持

假定:m个样本在原始空间的距离矩阵为 D ∈ R m ∗ m D\in R^{m*m} DRmm,其第i行j列的元素 d i s t i j dist_{ij} distij为样本 x i \bm{x_i} xi x j \bm{x_j} xj 的距离。我们的目标是获得样本在 d ’ d’ d维空间的表示 Z ∈ R d ’ ∗ m , d ≤ d Z\in\mathbb{R}^{d’*m},d≤d ZRdmdd,且任两个样本在d’维空间中的欧氏距离等于原始空间中的距离,即 ∣ ∣ z i − z j ∣ ∣ = d i s t i j ∣ ∣ ||\bm z_i-\bm z_j||=dist_{ij}∣∣ zizj=distij

降维后样本的内积矩阵
在这里插入图片描述
令将为后的降本Z被中心化在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

10.3 主成分分析

不同于MDS采用距离保持的方法,主成分分析(PCA)直接通过一个线性变换,将原始空间中的样本投影到新的低维空间中。简单来理解这一过程便是:PCA采用一组新的基来表示样本点,其中每一个基向量都是原来基向量的线性组合,通过使用尽可能少的新基向量来表出样本,从而达到降维的目的。

假设使用 d ’ d’ d个新基向量来表示原来样本,实质上是将样本投影到一个由 d ’ d’ d个基向量确定的一个超平面上(即舍弃了一些维度),要用一个超平面对空间中所有高维样本进行恰当的表达,最理想的情形是:若这些样本点都能在超平面上表出且这些表出在超平面上都能够很好地分散开来。但是一般使用较原空间低一些维度的超平面来做到这两点十分不容易,因此我们退一步海阔天空,要求这个超平面应具有如下两个性质:

  • 最近重构性:样本点到超平面的距离足够近,即尽可能在超平面附近;
  • 最大可分性:样本点在超平面上的投影尽可能地分散开来,即投影后的坐标具有区分性。

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
降维后低维空间的维数 d’ 通常是由用户事先指定,或通过在 d’ 值不同的 低维空间中对 k 近邻分类器(或其他开销较小的学习器)进行交叉验证来选取 较好的 d’ 值.对 PCA,还可从重构的角度设置一个重构阔值,例如 t = 95%, 然 后选取使下式成立的最小 d’ 值:

∑ i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值