k近邻（k-NN）算法

最新推荐文章于 2024-08-11 22:50:26 发布

panwei89

最新推荐文章于 2024-08-11 22:50:26 发布

阅读量412

点赞数 1

分类专栏：机器学习文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41685252/article/details/108214258

版权

k-NN算法是一种简单的机器学习方法，基于训练数据找到新实例最邻近的K个点，多数属于哪个类就将其分类到哪个类。文章讨论了算法原理、距离度量（主要使用欧式距离）、k值选择的影响，并通过Python展示了k=3时的核心算法实现。

摘要由CSDN通过智能技术生成

k近邻算法的基本概念，原理

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。
K近邻算法原理即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

k近邻算法中距离的度量

k近邻模型的特征空间一般是n维实数向量空间Rⁿ,使用的距离是欧式距离,但也可以是其他距离,如更一般的L_p距离(L_pdistance)或Minkowski距离(Minkowski distance).
在这里插入图片描述
其中当p=2的时候，就是我们最常见的欧式距离，我们也一般都用欧式距离来衡量我们高维空间中俩点的距离。

k近邻算法中k的选取

当 k=1 时的k近邻算法称为最近邻算法，此时将训练集中与xx最近的点的类别作为xx的分类。

k值的选择会对k近邻法的结果产生重大影响.

如果选择较小的k值，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差会减小，只有与输入实例较近的(相似的)训练实例才会对预测结果起作用.但缺点是“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感如果邻近的实例点恰巧是噪声，预测就会出错．
换句话说，k值的减小就意味着整体模型变得复杂，容易发生过拟合.
如果选择较大的k值，就相当于用较大邻域中的训练实例进行预测．
其优点是可以减少学习的估计误差．但缺点是学习的近似误差会增大．这时与输入实例较远的（不相似的）训练实例也会对预测起作用，使预测发生错误．k值的增大就意味着整体的模型变得简单.
如果k=N，那么无论输入实例是什么，都将简单地预测它属于在训练实例中最多的类．这时，模型过于简单，完全忽略训练实例中的大量有用信息，是不可取的.
在应用中，k值一般取一个比较小的数值．通常采用交叉验证法来选取最优的k值.

本文使用k=3来演示核心算法

k近邻算法核心程序

Python实现

import operator

import numpy as np


def calculateDistances(test_in, train_data

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

panwei89 CSDN认证博客专家 CSDN认证企业博客

码龄7年

1: 原创

145万+: 周排名

59万+: 总排名

411: 访问

: 等级

11: 积分

0: 粉丝

1: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

k近邻（k-NN）算法 412

分类专栏

机器学习 1篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。