K最近邻分类器

最新推荐文章于 2024-05-10 17:06:05 发布

tomjourney

最新推荐文章于 2024-05-10 17:06:05 发布

阅读量1.7k

点赞数

分类专栏：论文研究

论文研究专栏收录该内容

37 篇文章 3 订阅

订阅专栏

转自： http://www.cnblogs.com/qwertWZ/p/4582096.html

本章介绍了《机器学习实战》这本书中的第一个机器学习算法：k-近邻算法，它非常有效而且易于掌握。首先，我们将探讨k-近邻算法的基本理论，以及如何使用距离测量的方法分类物品；其次我们将使用Python从文本文件中导入并解析数据；再次，本文讨论了当存在许多数据来源时，如何避免计算距离时可能碰到的一些常见错误；最后，利用实际的例子讲解如何使用k-近邻算法改进约会网站和手写数字识别系统。

回到顶部

1. k-近邻算法概述

简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

k-近邻算法

优点：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高
适用数据范围：数值型和标称型

k-近邻算法（kNN）的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

现在我们回到前面电影分类的例子，使用k-近邻算法分类爱情片和动作片。有人曾经统计过很多电影的打斗镜头和接吻镜头，图1显示了6部电影的打斗和接吻镜头数。假如有一部未看过的电影，如何确定它是爱情片还是动作片呢？我们可以使用kNN来解决这个问题。

图1 使用打斗和接吻镜头数分类电影

首先我们需要知道这个未知电影存在多少个打斗镜头和接吻镜头，图1中问号位置是该未知电影出现的镜头数图形化展示，具体数字参见下表。

表1 每部电影的打斗镜头数、接吻镜头数以及电影评估类型

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He’s Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
?	18	90	未知

计算未知电影与样本集中其他电影的距离，我们可以比较其相似度：

表2 已知电影与未知电影的距离

电影名称	与未知电影的距离
California Man	20.5
He’s Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

现在我们得到了样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到k个距离最近的电影。假定k=3，则三个最靠近的电影依次是He’s Not Really into Dudes、Beautiful Woman和California Man。k-近邻算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

k-近邻算法的一般流程

收集数据：可以使用任何方法。
准备数据：距离计算所需要的数值，最好是结构化的数据格式。
分析数据：可以使用任何方法。
测试算法：计算错误率。
使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类。

1.1 准备：使用Python导入数据

创建名为kNN.py的Python模块，在kNN.py文件中增加下面的代码：

 
        from numpy import * 
       
        import operator 
       
        def createDataSet(): 
       
            group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) 
       
            labels = ['A', 'A', 'B', 'B'] 
       
            return group, labels

这个函数创建了我们将要使用的样例数据集。

在Python shell中输入下列命令测试上面的函数：

 
        >>> import kNN 
       
        >>> group, labels = kNN.createDataSet()

1.2 实施kNN算法

k-近邻算法的伪代码

对未知类型属性的数据集中的每个点依次执行以下操作：
(1) 计算已知类别数据集中的点与当前点之间的距离；
(2) 按照距离增序排序；
(3) 选取与当前点距离最近的k个点；
(4) 决定这k个点所属类别的出现频率；
(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。

函数实现如下：