机器学习实战（第二篇）-k-近邻算法

最新推荐文章于 2024-05-01 03:53:16 发布

perfecttshoot

最新推荐文章于 2024-05-01 03:53:16 发布

阅读量307

点赞数

分类专栏：机器学习文章标签：机器学习 k-近邻算法监督学习 Python kNN

本文链接：https://blog.csdn.net/wanght89/article/details/78916249

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本篇文章开始，我们将真实进入机器学习的世界，首先我们本篇介绍的是分类算法中的k-近邻算法。它非常有效而且易于掌握。首先我们将探讨k-近邻算法的基本理论，以及如何使用距离测量的方法分类物品；其次我们将使用Python从文本文件中导入并解析数据；再次，讨论了当存在许多数据来源时，如何避免计算距离时可能碰到的一些常见错误；最后，利用实际的例子讲解如何使用k-近邻算法改进约会网站和手写数字识别系统。

1. k-近邻算法概述

简单来说，k-近邻算法采用测量不停特征值之间的距离方法进行分类

优点：精度高、对异常值不敏感、无数据输入假定；

缺点：计算复杂度高、空间复杂度高

适用数据范围：数值型和标称型。

k-近邻算法（kNN），它的工作原理是：存在一个样本数据集合，也成为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般我们只选择样本集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相思数据中出现次数最多的分类，作为新数据的分类。

2. 电影分类实例

使用k-近邻算法分类爱情片和动作片。首先我们需要获取了如下的样本集和未知电影打斗镜头和接吻镜头的信息，如表-1所示：

表-1 样本集和未知电影打斗镜头和接吻镜头的信息

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He's Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
？	18	90	未知

即使不知道未知电影属于哪种类型，我们也可以通过某种算法计算出来。首先计算未知电影与样本集中其他电影的距离如表-2。此处暂时不关心如何计算得到这些距离值，使用Python实现电影分类应用时，会提供具体的计算方法。

电影名称	与未知电影的距离
California Man	20.5
He's Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

现在我们得到了样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到k个距离最近的电影。假定k=3，则三个最靠近的电影依次为 He's Not Really into Dudes,Beautiful Woman,California Man。k-近邻算法按照距离最近的三部电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

K-近邻算法的一般流程：

（1）收集数据：可以使用任何方法

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式

（3）分析数据：可以使用任何方法

（4）训练算法：此步骤不适用于k-近邻算法

（5）测试算法：计算错误率

（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

perfecttshoot

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战（第二篇）-k-近邻算法

本篇文章开始，我们将真实进入机器学习的世界，首先我们本篇介绍的是分类算法中的k-近邻算法。它非常有效而且易于掌握。首先我们将探讨k-近邻算法的基本理论，以及如何使用距离测量的方法分类物品；其次我们将使用Python从文本文件中导入并解析数据；再次，讨论了当存在许多数据来源时，如何避免计算距离时可能碰到的一些常见错误；最后，利用实际的例子讲解如何使用k-近邻算法改进约会网站和手写数字识别系统。
复制链接

扫一扫

专栏目录