机器学习实战笔记(Python实现)-02-k近邻算法(kNN)

最新推荐文章于 2024-07-27 15:01:17 发布

ACDance

最新推荐文章于 2024-07-27 15:01:17 发布

阅读量1.5w

点赞数 19

分类专栏： Machine Learning 文章标签：机器学习 machine learning kNN k近邻算法 python

本文链接：https://blog.csdn.net/niuwei22007/article/details/49703719

版权

本文详细介绍了k近邻（kNN）算法的原理和如何利用Python实现该算法，包括简单分类和改进分类，如数值归一化和从文件读取数据。通过手写数字识别的例子展示了kNN的应用，并探讨了算法的优缺点，如计算复杂度高和无法揭示数据结构信息。

摘要由CSDN通过智能技术生成

k近邻算法（kNN）

本博客来源于CSDN：http://blog.csdn.net/niuwei22007/article/details/49703719

本博客源代码下载地址：CSDN免费下载、GitHub下载地址均带有详细注释和测试数据

今天学习了《机器学习实战》这本书介绍的第一个机器学习算法—k近邻算法。书中介绍它对于分类非常有效，比如书中的例子是对电影的题材进行分类。

一、算法原理

算法原理是什么？允许我不严谨的说一下：首先有一堆有标签的样本，比如有一堆各种各样的鸟（样本集），我知道各种鸟的不同外貌（特征），比如羽毛颜色、有无脚蹼、身体重量、身体长度以及最重要的它属于哪一种鸟（类别/标签）；然后给我一只不是这堆鸟中的一只鸟（测试样本），让我观察了它的羽毛颜色等后，让我说出它属于哪一种鸟？我的做法是：遍历之前的一堆鸟，分别比较每一只鸟的羽毛颜色、身体重量等特征与给定鸟的相应特征，并给出这两只鸟的相似度。最终，从那一堆鸟中找出相似度最大的前k只，然后统计这k只鸟的分类，最后把分类数量最多的那只鸟的类别作为给定鸟的类别。虽然结果不一定准确，但是是有理论支持的，那就是概率论，哈哈。

下面来看一下书上对这个算法的原理介绍：存在一个训练样本集，并且每个样本都存在标签（有监督学习）。输入没有标签的新样本数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取出与样本集中特征最相似的数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，而且k通常不大于20。最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。