机器学习-KNN（最近邻）详解

最新推荐文章于 2024-05-02 08:15:00 发布

陈塬升

最新推荐文章于 2024-05-02 08:15:00 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习文章标签：机器学习算法人工智能 python

本文链接：https://blog.csdn.net/INFINALGEORGE/article/details/106538177

版权

K-近邻算法原理
K最近邻(kNN，k-NearestNeighbor)分类算法，见名思意：找到最近的k个邻居（样本），在前k个样本中选择频率最高的类别作为预测类别。
下面举个例子，图解一下大家就会显而易见了，如下图：

e.g：下图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果k=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果k=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

我们的目的是要预测某个学生在数学课上的成绩。。。
先来说明几个基本概念：图中每个点代表一个样本（在这里是指一个学生），横纵坐标代表了特征（到课率，作业质量），不同的形状代表了类别（即：红色代表A（优秀），绿色代表D（不及格））。我们现在看（10，20）这个点，它就代表着：在数学课上，某个学生到课率是10%，交作业质量是20分，最终导致了他期末考试得了D等级（不佳）。同理，这6个点也就代表了6个往届学生的平时状态和最终成绩，称之为训练样本。。。。

现在要来实现我们的预测目的了，想象一下现在一学期快过完了，张三同学马上要考试了，他想知道自己能考的怎么样，他在数学老师那里查到了自己的到课率85%，作业质量是90，那么怎么实现预测呢？张三可以看做是（85,90）这个点–也被称之为测试样本，首先，我们计算张三到其他6位同学（训练样本）的距离，点到点的距离相信我们初中就学了吧（一般用的欧氏距离）。再选取前K个最近的距离，例如我们选择k=3，那么我们就找出距离最近的三个样本分别属于哪个类别，此例中，自然三个都是A等，所以可预测出张三的数学期末成绩可能是A等（优秀）。倘若李四现在也想进行预测，据他较近的3个中两个D，一个A，那么李四的数学期末成绩被预测为D。这也就是最开始所说的：在前k个样本中选择频率最高的类别作为预测类别。。。

总结其计算步骤如下：

算距离：给定测试对象，计算它与训练集中的每个对象的距离
找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻
做分类：根据这k个近邻归属的主要类别，来对测试对象分类

好了，经过上述过程，你是否对KNN算法基本思想有了一定了解。也许你会问我，我大学不去上课，不交作业，照样考A，这预测根本不准确嘛，O(∩_∩)O哈哈~，首先说明一下这个例子举的确实不太恰当，因为我们的特征（到课率和作业质量）选取的不当，在很多分类预测算法中，决定其分类预测上限的往往是好的特征的选取，好的特征也就是对其最终结果的影响比较大的。。。原理就说到这吧。。。

算法复杂度
kNN是一种lazy-learning算法，分类器不需要使用训练集进行训练，因此训练时间复杂度为0；kNN分类的计算复杂度和训练集中的文档数目成正

最低0.47元/天解锁文章

陈塬升

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习-KNN（最近邻）详解

K-近邻算法原理K最近邻(kNN，k-NearestNeighbor)分类算法，见名思意：找到最近的k个邻居（样本），在前k个样本中选择频率最高的类别作为预测类别，什么？怎么那么拗口，没图说个JB，下面举个例子，图解一下大家就会显而易见了，如下图：我们的目的是要预测某个学生在数学课上的成绩。。。先来说明几个基本概念：图中每个点代表一个样本（在这里是指一个学生），横纵坐标代表了特征（到课率，作业质量），不同的形状代表了类别（即：红色代表A（优秀），绿色代表D（不及格））。我们现在看（10，20）这个.
复制链接

扫一扫