第一个机器学习算法,k-近邻算法,(一种分类方法)

代码连接:https://pan.baidu.com/s/1zrZzZJTTikrnuXuXwZIzyQ

提取码:szdg

工作原理:

第一:要存在一个带标签的样本集合。(所有样本对应的类别是已知的)

第二:当有一个新数据输入后,将新数据的每个特征与样本集中中的 每一个样本的特征进行比较。

第三:提取最接近的 K 个样本。一般K <=20.

第四:在这 K  个样本中,选取出现最多的类别。 作为新数据的分类。

 

优缺点:

优点:精度高, 对异常值不敏感(提取接近的 K 个样本,当K取的较大时, 异常值出现的比例降低, 当再取其中出现次数最多的类别时,异常值的影响很小), 无数据输入假定。

缺点:计算复杂度高(直接计算特征的距离,当数据集很大时,计算复杂度会很大), 空间复杂度高。

 

下面给出具体流程:

收集数据:提供一个文本文件   txt文件

准备数据:将 txt 中对应的数据写入 数据矩阵,(二维数组,每一行是一个样本,列为特征),  对应标签 写入  label向量,,使用python解析文本文件

分析数据:使用Matplotlib 画散点图,分析数据分布

核心算法代码编写:计算测试样本 和样本集的欧式距离,取前  K  个,统计出现最多的 label。

测试算法:提供一个测试集,(或者选取数据集 中随机的 百分之10左右, 作为测试数据),记录错误次数,计算正确率。

使用算法:调用代码,随意给数据,给出  对应的类别。

 

一:收集数据。

         在文件包中有一个  datingTestSet.txt  和  atingTestSet2.txt都可以使用

二:准备数据,解析文本文件。

        代码如下:

 

当解析文本文件之后,每一个特征为数字的时候,每一个特征的数量级不一致,例如

特征A  : 身高     150-------240

特征B:体重      40---------150

特征C:年龄      20-----------30

当计算欧式距离的时候,每一个特征的  权重会不一致。所以在计算欧式距离之前    需要对数据矩阵每一个特征进行归一化处理。    (身高-min身高)/(max身高-min身高);

代码如下:

 

三,分析数据:一般使用matplotlib绘制散点图。。。代码比较好理解,就没有加注释

四,核心算法编写:

代码如下: 不懂的函数,可以百度搜索相关调用。

 五,测试算法,选取数据集的 前0.1 为测试集, 后0.9为训练集。

filename 为存放数据的 txt文件, K 为 截取的前 K 个近邻样本。

第六:使用算法:

传递文本文件,k,返回错误率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值