kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。简单的分类就是待分类的数据与哪条已分类的数据相同,那么它们就属于同一个类别,但是现实中多数数据不可能完全相同,如果用这种方法,就可能导致待分类的数据找不到已经分类的相同的数据。
kNN算法从已经分类的数据中找到距离最接近的K个记录,然后取所占分类最多的那个类别。
实现的算法步骤:
- 读取数据文件[1],这里面包含测试集和训练集
- 数据归一,主要是为了使每个属性对结果的影响相同
- 从数据文件[1]选取一部分作为测试集,一部分作为训练集
- 对测试集中的每条记录使用分类算法计算其分类
4.1) 分别计算这条记录与所有训练集数据的欧氏距离
4.2) 从所有距离中选出距离最小的K条数据
4.3) 将这K条数据对应的类别放入一个字典集中,并降序排列
4.4) 字典集中的第一个key/value对的key就是这条测试数据的分类 - 对所有测试数据进行上述步骤,并记录结果的错误率
实验需要的数据集自行下载:datingTestSet2.txt
数据集一共有1000个样本,每个样本有3个属性,分别为每行的前三列,第四列代表样本所属的类别
from numpy import *
import operator
def createDateSet():
group=array([[1.0,1.1],[1.0,1.0],[0,