机器学习分类之结合实际应用介绍KNN算法原理以及利用sklearn进行分类预测

最新推荐文章于 2023-03-23 15:56:25 发布

晓晓白熊

最新推荐文章于 2023-03-23 15:56:25 发布

阅读量1.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_34822916/article/details/78248691

版权

KNN算法原理：

存在一个训练样本集，并且每个样本都存在标签（有监督学习）。输入没有标签的新样本数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取出与样本集中特征最相似的数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，而且k通常不大于20。最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

（一）KNN依然是一种监督学习算法

KNN（K Nearest Neighbors,K近邻）算法是机器学习所有算法中理论最简单，最好理解的。KNN是一种基于实例的学习，通过计算新数据与训练数据特征值之间的距离，然后选取K（K>=1）个距离最近的邻居进行分类判断（投票法）或者回归。如果K=1，那么新数据被简单分配给其近邻的类。KNN算法算是监督学习还是无监督学习呢？首先来看一下监督学习和无监督学习的定义。对于监督学习，数据都有明确的label（分类针对离散分布，回归针对连续分布），根据机器学习产生的模型可以将新数据分到一个明确的类或得到一个预测值。对于非监督学习，数据没有label，机器学习出的模型是从数据中提取出来的pattern（提取决定性特征或者聚类等）。例如聚类是机器根据学习得到的模型来判断新数据“更像”哪些原数据集合。KNN算法用于分类时，每个训练数据都有明确的label，也可以明确的判断出新数据的label，KNN用于回归时也会根据邻居的值预测出一个明确的值，因此KNN属于监督学习。

（二）KNN算法的过程为:

1.选择一种距离计算方式, 通过数据所有的特征计算新数据与已知类别数据集中的数据点的距离