kNN算法及实例(一)

kNN算法是一种基于实例的学习,通过寻找最近邻来实现分类。在分类过程中,算法首先对数据进行归一化处理,然后选取测试集和训练集。对于测试集中的每个记录,算法计算它与训练集中所有记录的欧氏距离,选择最近的K个邻居,依据多数投票原则决定测试数据的类别。这个过程有助于提高分类的准确性。实验数据集包含1000个样本,每个样本有3个属性和一个类别标签。
摘要由CSDN通过智能技术生成

kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。简单的分类就是待分类的数据与哪条已分类的数据相同,那么它们就属于同一个类别,但是现实中多数数据不可能完全相同,如果用这种方法,就可能导致待分类的数据找不到已经分类的相同的数据。
kNN算法从已经分类的数据中找到距离最接近的K个记录,然后取所占分类最多的那个类别。
实现的算法步骤:

  1. 读取数据文件[1],这里面包含测试集和训练集
  2. 数据归一,主要是为了使每个属性对结果的影响相同
  3. 从数据文件[1]选取一部分作为测试集,一部分作为训练集
  4. 对测试集中的每条记录使用分类算法计算其分类
    4.1) 分别计算这条记录与所有训练集数据的欧氏距离
    4.2) 从所有距离中选出距离最小的K条数据
    4.3) 将这K条数据对应的类别放入一个字典集中,并降序排列
    4.4) 字典集中的第一个key/value对的key就是这条测试数据的分类
  5. 对所有测试数据进行上述步骤,并记录结果的错误率

实验需要的数据集自行下载:datingTestSet2.txt
数据集一共有1000个样本,每个样本有3个属性,分别为每行的前三列,第四列代表样本所属的类别

from numpy import *
import operator
def createDateSet():
    group=array([[1.0,1.1],[1.0,1.0],[0,
  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值