机器学习算法之K-近邻算法

最新推荐文章于 2023-03-05 22:25:47 发布

wangchuang2017

最新推荐文章于 2023-03-05 22:25:47 发布

阅读量168

点赞数 1

分类专栏： ML机器学习 AI人工智能 DL深度学习

本文链接：https://blog.csdn.net/u010608296/article/details/119822799

版权

ML机器学习同时被 3 个专栏收录

25 篇文章 1 订阅

订阅专栏

AI人工智能

17 篇文章 2 订阅

订阅专栏

DL深度学习

16 篇文章 1 订阅

订阅专栏

1 KNN算法的原理

KNN（K-Nearest Neighbor）工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。

如上图所示，我们的目的是要预测某个学生在数学课上的成绩。先来说明几个基本概念：图中每个点代表一个样本（在这里是指一个学生），横纵坐标代表了特征（到课率，作业质量），不同的形状代表了类别（即：红色代表A（优秀），绿色代表D（不及格））。我们现在看（10，20）这个点，它就代表着：在数学课上，某个学生到课率是10%，交作业质量是20分，最终导致了他期末考试得了D等级（不佳）。同理，这6个点也就代表了6个往届学生的平时状态和最终成绩。

现在要来实现我们的预测目的了，如果一个学生想知道自己能考的怎么样，他在数学老师那里查到了自己的到课率85%，作业质量是90，那么怎么实现预测呢？张三可以看做是（85,90）这个点–也被称之为测试样本，首先，我们计算张三到其他6位同学（训练样本）的距离，点到点的距离相信我们初中就学了吧（一般用的欧氏距离）。再选取前K个最近的距离，例如我们选择k=3，那么我们就找出距离最近的三个样本分别属于哪个类别，此例中，自然三个都是A等，所以可预测出张三的数学期末成绩可能是A等（优秀）。

2 KNN算法的流程

计算测试数据与各个训练数据之间的距离；按照距离的递增关系进行排序；选取距离最小的K个点；确定前K个点所在类别的出现频率；返回前K个点中出现频率最高的类别作为测试数据的预测分类。下图中给出了KNN算法中K值选区的规则：

图中的数据集是良好的数据，即都有对应的标签。一类是蓝色的正方形，一类是红色的三角形，那个绿色的圆形是待分类的数据。

K= 3 时，范围内红色三角形多，这个待分类点属于红色三角形。K= 5 时，范围内蓝色正方形多，这个待分类点属于蓝色正方形。如何选择一个最佳的K值取决于数据。一般情况下，在分类时较大的 K 值能够减小噪声的影响，但会使类别之间的界限变得模糊。因此 K 的取值一般比较小 ( K < 20 )。

3 KNN算法的优缺点

优点：简单，易于理解，无需建模与训练，易于实现；适合对稀有事件进行分类；适合与多分类问题，例如根据基因特征来判断其功能分类，kNN比SVM的表现要好。缺点：惰性算法，内存开销大，对测试样本分类时计算量大，性能较低；可解释性差，无法给出决策树那样的规则。

wangchuang2017

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习算法之K-近邻算法

1 KNN算法的原理KNN（K-Nearest Neighbor）工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。如上图所示，我们的目的是要预测某个学生在数学课上的成绩。先来说明几个基本概念：图中每个点代表一个样本（在这里是指一个学生），横纵坐标代表了特征（到课率，作业质量），不...
复制链接

扫一扫