机器学习(6)

降维与度量学习

k近邻学习(KNN)

监督学习方法

机制

以某种方式找到训练集中与测试样本最近的k个值,以这k个值来预测

投票法

选择K个样本中出现最多的类别标记作为结果

平均法

为k个样本加权(平均)得到结果

懒惰学习

KNN是典型的懒惰学习,训练阶段仅保存样本,得到测试样本后才处理

低维嵌入

只有样本密度足够大,才能满足KNN的取样原则

但是随着维度增加,所要的数据数量增加极快,远超当前计算能力。

高维会出现 样本稀疏、距离计算困难  的维数灾难

因此降维很重要

若要求原始空间中样本间距离能够在降维后保持,可以使用多维缩放(MDS,multiple dimensional scaling)

最简单的是线性变换

通过比较降维前后学习器的性能可以对降维效果进行评估

主成分分析

principal  component analysis  , PCA

最常用的一种降维方法

最近重构性

样本点到这个超平面的距离都足够近

最大可分性

样本点在这个超平面上的投影进尽能分开

降维之后会舍弃一部分信息,但是有两个好处

1、增加了数据的密度

2、一定程度上去噪

核化线性降维

基于核技巧对线性降维进行核化

流形学习

manifold learning

借鉴了拓扑流形的概念,具有局部欧氏空间的性质

可被用于可视化

等度量映射(Isomap)

测地线 :实际走过去的最短距离(本真距离)

因为高维中欧氏距离(两点连线)与其本真距离不一致,所以要想得到其本真距离采用近邻连接图。

一种是指定近邻点个数

一种是指定距离阈值,阈值内的才被当作近邻点

局部线性嵌入(Locally Linear Embedding)

保持邻域内样本之间的线性关系

度量学习

通过学习找到合适的距离

太难了

开摆

参考文献:

周志华. 机器学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值