机器学习第10章(降维与度量学习)

                                                降维与度量学习

10.1 k近邻度量学习

工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。

在分类任务中多使用投票法,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中多使用平均法,即将这k个样本的实值输出标记的平均值作为预测结果。

给定测试样本x,若其最近邻样本为z,则最近邻分类器出错的概率就是x与z类别标记不同的概率,即:

P(err)=1-\sum_{c\in y}P(c|x)P(c|z)                                                                                                                                  公式(1)

10.2 低维嵌入

在高维情况下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难(curse of dimensionality)”。缓解维数灾难的方法就是降维。基于线性变换来进行降维的方法称为线性降维方法,对降维效果的评估,通常是比较降维前后学习器的性能,若性能有所提高则认为降维起了作用。

10.3 主成分分析

Principal Component Analysisi,简称PCA是最常用的一种降维方法。

PCA仅需保留W*与样本的均值向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中。

低维空间与原始高维空间必有不同,因为对应于最小的d-d'个特征值的特征向量被抛弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的:(1)舍弃这部分信息之后能使样本的采样密度增大;(2)当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到去噪的效果。

10.4 核化线性降维

10.5 流性学习

manifold learning是一类借鉴了拓扑流形概念的降维方法,“流形”是在局部与欧式空间同胚的空间。流型学习也可被用来可视化。

等度量映射(Isometric Mapping):

局部线性嵌入(Locally Linear Embedding):

10.6 度量学习(metric learning)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值