数据挖掘十大经典算法之 KNN算法

最新推荐文章于 2020-10-09 14:47:44 发布

MnerX

最新推荐文章于 2020-10-09 14:47:44 发布

阅读量3k

点赞数 2

分类专栏： SparkMllib 算法文章标签： KNN SparkMllib

本文链接：https://blog.csdn.net/qq_38483094/article/details/100015351

版权

KNN算法是一种简单而有效的分类方法，基于实例学习和懒惰学习。算法主要包括计算距离、选取K个最近邻、确定类别频率并预测分类。K的选择对算法性能至关重要，通常不超过20，避免过拟合或欠拟合。距离度量常采用欧几里得距离，Python实现包括计算距离、找邻居和做分类三个步骤。尽管KNN在数据量大时计算成本高，但适合处理边界不规则的数据和类间间距大的问题。

摘要由CSDN通过智能技术生成

一、KNN算法概述

　　邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based learning），属于懒惰学习（lazy learning）即KNN没有显式的学习过程，也就是说没有训练阶段，数据集事先已有了分类和特征值，待收到新样本后直接进行处理。与急切学习（eager learning）相对应。

　　KNN是通过测量不同特征值之间的距离进行分类。

　　思路是：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也划分为这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

　　提到KNN，网上最常见的就是下面这个图，可以帮助大家理解。

　　我们要确定绿点属于哪个颜色（红色或者蓝色），要做的就是选出距离目标点距离最近的k个点，看这k个点的大多数颜色是什么颜色。当k取3的时候，我们可以看出距离最近的三个，分别是红色、红色、蓝色，因此得到目标点为红色。