降维与度量学习

本文介绍了降维与度量学习的重要性,特别是KNN算法及其距离度量的选择,如欧式距离。讨论了降维方法,包括MDS、PCA和核化线性降维,以及流形学习中的等度量映射和局部线性嵌入(LLE)。度量学习中,探讨了如何学习合适的距离度量,如马氏距离,以解决高维数据问题。
摘要由CSDN通过智能技术生成

KNN–k近邻学习

KNN基于某种距离度量在训练集中找出与其距离最近的k个带有真实标记的训练样本,然后基于这k个邻居的真实标记来进行预测

  • 分类任务:投票法或者加权投票法(基于距离远近,距离越近的样本权重越大)
  • 回归任务:平均法或者加权平均法(基于距离远近,距离越近的样本权重越大)

这里写图片描述
KNN算法的核心在于k值的选取以及距离的度量。k值选取太小,模型很容易受到噪声数据的干扰,例如:极端地取k=1,若待分类样本正好与一个噪声数据距离最近,就导致了分类错误;若k值太大, 则在更大的邻域内进行投票,此时模型的预测能力大大减弱,例如:极端取k=训练样本数,就相当于模型根本没有学习,所有测试样本的预测结果都是一样的。一般地我们都通过交叉验证法来选取一个适当的k值。(??)
这里写图片描述

KNN的距离度量可以选择欧式距离、马氏距离、曼哈顿距离

欧式距离

d=k=1n(ykxk)2 d = ∑ k = 1 n ( y k − x k ) 2

曼哈顿距离
d=k=1n|ykxk| d = ∑ k = 1 n | y k − x k |

切比雪夫距离
d=maxk|ykxk| d = max k | y k − x k |

马氏距离
D(xi,yj)=(xiyj)TS1(xiyj) D ( x i , y j ) = ( x i − y j ) T S − 1 ( x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值