![363c5281497ebb9774f3d5e63d5848e1.png](https://i-blog.csdnimg.cn/blog_migrate/812ae43b3b82dc90f60cce1e58842a55.jpeg)
程一舰
数据技术处
K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN是通过测量不同特征值之间的距离进行分类。其基本思想可以用这样一句俗语来解释——“近朱者赤,近墨者黑”。
一、原理介绍 K近邻的思路是如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别,则该样本也划分为这个类别。通过下面的这张图就好理解了:如果要确定绿点属于哪个颜色(红色或者蓝色),要做的就是选出距离目标点距离最近的k个点,看这k个点的大多数颜色是什么颜色。当k取3的时候,我们可以看出距离最近的三个,分别是红色、红色、蓝色,因此得到目标点为红色。![9818232053f434822fd9951e5f071c46.png](https://i-blog.csdnimg.cn/blog_migrate/4ee7d17e884aaeab37880131ba1c5d90.png)