机器学习基础——简单易懂的K邻近算法，根据邻居“找自己”

最新推荐文章于 2022-01-05 15:22:05 发布

TechFlow

最新推荐文章于 2022-01-05 15:22:05 发布

阅读量550

点赞数 1

分类专栏：机器学习文章标签：机器学习 python K邻近 KNN算法无监督学习

本文链接：https://blog.csdn.net/TechFlow/article/details/104789053

版权

本文深入浅出地介绍了机器学习中的K邻近算法（KNN）。通过实例解析，帮助读者理解如何利用KNN进行无监督学习，以及在Python中实现该算法的基本步骤。

摘要由CSDN通过智能技术生成

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天的文章给大家分享机器学习领域非常简单的模型——KNN，也就是K Nearest Neighbours算法，翻译过来很简单，就是K最近邻居算法。这是一个经典的无监督学习的算法，原理非常直观，易于理解。

监督与无监督

简单介绍一下监督这个概念，监督是supervised的直译，我个人觉得不太准确，翻译成有标注和无标注可能更加准确。也就是说如果模型在学习的时候，既能够看到样本的特征又可以看到样本的结果，那么就是有监督学习，如果只能看到特征，但是并不能知道这些特征对应的结果，那么就是无监督学习。

之前我们介绍的线性回归和逻辑回归模型就是典型的有监督模型，因为模型在训练的时候知道样本的结果，并且根据我们设计的损失函数朝着贴近样本真实结果的方向“努力”。而今天介绍的KNN算法则是一个经典的无监督学习模型，算法在训练的时候并不知道正确的结果是什么，也因此模型根本没有损失函数这个概念，那么自然整个算法的运行原理也很监督模型大相径庭。

算法概述

其实KNN算法的原理非常简单，简单到只有一句话，就是找到样本的K个邻居，然后这K个邻居出现次数最多的结果就是答案。

但是我们怎么定义邻居，又怎么找到这些邻居呢？

在回答这个问题之前，我们先来看一个例子。

假设现在有这么一个问题，我需要知道全城的用户有哪些用户有车，但是我们只知道用户的家庭地址，那么该怎么办呢？

很显然，我需要在全城做一个调查，也就是对全城市民做一个抽样，抽取一部分做个是否有车的调研。对于剩下的用户呢，我去寻找离他最近的几个邻居，看看他的这几个邻居是否有车。如果离他近的邻居大多数都有车，那么，我可以认为，该用户可能住在富人区，他有车的概率比较大。如果他的邻居都没有车，可能他住在穷人区，他很有可能也没有车。

你可能会说中国不像美国可以划分成穷人区和富人区，往往在一个区域内穷富是杂居的，用这种方法得出的结果准确率肯定不高。

的确存在这个问题，所以我们可以在此基础上做一点优化，很简单，我们只知道用户住在哪里是不够的，我们可能还需要了解用户的收入情况。在寻找他最近的邻居的过程当中，除了要考虑距离上的远近之外，还需要保证收入尽可能接近。

如果能知道和他距离和收入都接近的邻居是否有车，那么大概率可以判断这个用户是否有车。重复这个算法，我就可以通过少量的样本，算出全体样本是否有车的情况。

说到这里，想必你应该能明白，在KNN算法的范畴当中，“邻居”指的不是地理上的邻近关系，而指的是样本空间的接近。

我们都知道，对于向量A(a1,a2,a3...an)，B(b1,b2,b3...bn)

在机器学习当中，我们通常会把一条样本数据当做向量空间中的一条向量。比如在刚刚的问题当中，用户A，他的样本可能是(120.3213, 30.1312, 10.5)，指的是居住地点的经纬度和年收入。也可能是(城东, 泾河花园, 10.5)，或者是(城东, 沿河西路, 泾河花园, 10.5)等等。

同样的一条样本

最低0.47元/天解锁文章

TechFlow

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础——简单易懂的K邻近算法，根据邻居“找自己”

本文始发于个人公众号：TechFlow，原创不易，求个关注今天的文章给大家分享机器学习领域非常简单的模型——KNN，也就是K Nearest Neighbours算法，翻译过来很简单，就是K最近邻居算法。这是一个经典的无监督学习的算法，原理非常直观，易于理解。监督与无监督简单介绍一下监督这个概念，监督是supervised的直译，我个人觉得不太准确，翻译成有标注和无标注可能更加准确。也就是...
复制链接

扫一扫

专栏目录