代码连接:https://pan.baidu.com/s/1zrZzZJTTikrnuXuXwZIzyQ
提取码:szdg
工作原理:
第一:要存在一个带标签的样本集合。(所有样本对应的类别是已知的)
第二:当有一个新数据输入后,将新数据的每个特征与样本集中中的 每一个样本的特征进行比较。
第三:提取最接近的 K 个样本。一般K <=20.
第四:在这 K 个样本中,选取出现最多的类别。 作为新数据的分类。
优缺点:
优点:精度高, 对异常值不敏感(提取接近的 K 个样本,当K取的较大时, 异常值出现的比例降低, 当再取其中出现次数最多的类别时,异常值的影响很小), 无数据输入假定。
缺点:计算复杂度高(直接计算特征的距离,当数据集很大时,计算复杂度会很大), 空间复杂度高。
下面给出具体流程:
收集数据:提供一个文本文件 txt文件
准备数据:将 txt 中对应的数据写入 数据矩阵,(二维数组,每一行是一个样本,列为特征), 对应标签 写入 label向量,,使用python解析文本文件
分析数据:使用Matplotlib 画散点图,分析数据分布
核心算法代码编写:计算测试样本 和样本集的欧式距离,取前 K 个,统计出现最多的 label。
测试算法:提供一个测试集,(或者选取数据集 中随机的 百分之10左右, 作为测试数据),记录错误次数,计算正确率。
使用算法:调用代码,随意给数据,给出 对应的类别。
一:收集数据。
在文件包中有一个 datingTestSet.txt 和 atingTestSet2.txt都可以使用
二:准备数据,解析文本文件。
代码如下:
当解析文本文件之后,每一个特征为数字的时候,每一个特征的数量级不一致,例如
特征A : 身高 150-------240
特征B:体重 40---------150
特征C:年龄 20-----------30
当计算欧式距离的时候,每一个特征的 权重会不一致。所以在计算欧式距离之前 需要对数据矩阵每一个特征进行归一化处理。 (身高-min身高)/(max身高-min身高);
代码如下:
三,分析数据:一般使用matplotlib绘制散点图。。。代码比较好理解,就没有加注释
四,核心算法编写:
代码如下: 不懂的函数,可以百度搜索相关调用。
五,测试算法,选取数据集的 前0.1 为测试集, 后0.9为训练集。
filename 为存放数据的 txt文件, K 为 截取的前 K 个近邻样本。
第六:使用算法:
传递文本文件,k,返回错误率。