一、KNN算法概述
kNN(k Nearest Neighbors)算法又叫 k 最临近方法,总体来说 kNN 算法是相对比较容易理解的算法之一。
首先最简单的KNN算法是找到训练集数据中与测试的数据最临近的样本,则这个样本的类型就是测试数据的预测类型。当然KNN算法也可以假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, kNN 就是计算每个样本数据到待分类数据的距离,取和待分类数据最近的k 各样本数据,那么这个k 个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。该算法的基本思路是:在给定测试目标后,考虑在训练文本集中与该目标距离最近(最相似)的 K 个样本,根据这 K 个样本所属的类别判定测试目标所属的类别。
二、算法实现
首先预先给定一个数据集作为训练集数据,训练集数据中的每一组数据都对应一种类型,本鸢尾花题目中,我们只给出了10组训练集数据(可以根据需要更改),所对应类型为’setosa’,‘setosa’,‘setosa’,‘setosa’,‘versicolor’,‘versicolor’,‘versicolor’,‘versicolor’,‘virginica’,‘virginica’。我们在程序中提供了两种算法,一种是找到与测试目标最临近的一个样本,然后以此样本的类型作为测试目标的类型;另外一种是找到与测试目标临近的K个样本,这些样本中出现的类型最多的即是测试目标的类型。
采用欧氏距离的算法作为计算样本与测试目标距离的算法,算法公式如下所示:
Python实现KNN算法
最新推荐文章于 2021-02-13 22:01:38 发布
本文介绍了KNN(K最近邻)算法的基本概念,包括其工作原理和分类方式。通过实例展示了如何使用Python实现KNN算法,包括欧氏距离的计算,并给出了K=1和K=5时的运行结果。在实践中遇到并解决了如列表操作错误、类型错误等编程问题,加深了对Python编程的理解。
摘要由CSDN通过智能技术生成