机器学习之 K近邻(KNN)，各种距离(范数)

最新推荐文章于 2024-08-08 22:03:12 发布

才大难为用

最新推荐文章于 2024-08-08 22:03:12 发布

阅读量1k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HeroIsUseless/article/details/108940921

版权

本文探讨k-最近邻(kNN)算法中k的选择原则，介绍如何通过交叉验证确定最佳k值，并解析最近邻判断的方法，包括欧式范数和归一化技巧。重点讲解kNN的时间复杂度、空间复杂度，以及其作为非参数模型的特点和适用场景。

摘要由CSDN通过智能技术生成

思想是在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中（这就类似于现实生活中少数服从多数的思想）。

但k怎么确定的，k为多少效果最好呢？(其实是超参数，不能用数据进行调整的，只能用交叉验证推算)

如果我们选取较小的k值，那么就会意味着我们的整体模型会变得复杂，容易发生过拟合！(容易被噪声占据优势)

如果我们选取较大的k值，就相当于用较大邻域中的训练数据进行预测，这时与输入实例较远的（不相似）训练实例也会对预测起作用，使预测发生错误，k值的增大意味着整体模型变得简单。不解释。

k值既不能过大，也不能过小，要恰当好。通常采取交叉验证法来选取最优的k值。（也就是说，选取k值很重要的关键是实验调参，类似于神经网络选取多少层这种，通过调整超参数来得到一个较好的结果）

所谓的最近邻又是如何来判断给定呢？
这个就是各种距离，两个点之间的距离还是很好计算的。

而且还有归一化的问题，这个不难( $\frac{x-a}{b-a}$

最低0.47元/天解锁文章

才大难为用

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。