机器学习基础 之 降维与度量学习


转自: https://www.zhenxiangsimple.com/2019/04/09/tech-ml-jwdlxx/


k临近学习

  其原理是,对于给定的待测试样本,基于某种距离找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的属性来进行计算,使用k个邻居的“均值”作为待测试样本的最终分类值。当前分类方法受距离计算原理影响,可能不同的距离会得到不同的分类结果;也收到k的取值影响,可能也会由于k的范围不同得到不同的分类区间。

低维嵌入

  当样本属性有较高维度时,其样本之间距离的计算量会非常大,为了尽可能减少计算量可以使用降维的方法,即将高维的原始样本通过数学变换得到一个低维的空间,同时尽可能保持原来样本之间的关系。可以简单理解成,将高维空间的数据映射或者变换到低维空间,一方面因为部分维度即可体现当前样本的关键分类属性,另一方面维度的变换后更便捷的查看分类信息,常用的有线性变换。

X ∗ = W T X X^* = W^TX X=WTX

主成分分析

  常规数学上的主成分分析是对数据的维度进行特征提取,仅获取对样本数据影响较大的几个主要的维度,忽略其他的维度信息。当前小节提到的主成分跟常规的思路一样,做法上可以理解为将所有样本的维度投影到一个超平面上,使得投影结果之间的间距尽可能大,即可以区分原来的样本;同时各样本到超平面的距离尽可能近。

核化线性降维

  常规的降维方法是使用线性降维,但很多现实的任务中线性变换不太容易找到,或者丢失的数据信息太多,所以也引入非线性降维,一种常用的方法是,基于核技巧对线性降维方法进行核化。

流形学习

  是指那些在局部具有欧氏空间性质,可以使用欧氏距离进行距离计算的样本属性空间,借鉴了拓扑流形概念的降维方法。常用方法有等度量映射和局部线性嵌入,前者是使用近使用邻居节点作为计算节点来计算,并选择所有路径中最短的路径作为两个节点之间的距离;后者也是使用邻居节点进行计算,但后者保留了初始节点之间的线性关系。

度量学习

  度量学习的意思是直接以方便距离计算为目标的降维方式,而不是先完成降维之后再进行距离计算,毕竟降维的目标也是方便最终的空间比初始空间的计算性能更好。

点击查看 (人工智能) 系列文章


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

放羊郎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值