用python实现kNN分类算法

本文介绍了如何使用Python实现k-近邻(kNN)算法,并基于UCI的一个生物降解数据集进行实验。讨论了kNN算法的分类原理,指出k值的选择对分类效果的影响,发现k=5时分类效果较优。同时,分析了kNN算法的优缺点,如在数据结构简单时表现良好,但在复杂场景下效率和准确性降低。
摘要由CSDN通过智能技术生成

k-近邻算法是基本的机器学习算法,算法的原理非常简单:

输入样本数据后,计算输入样本和参考样本之间的距离,找出离输入样本距离最近的k个样本,找出这k个样本中出现频率最高的类标签作为输入样本的类标签,很直观也很简单,就是和参考样本集中的样本做对比。下面讲一讲用python实现kNN算法的方法,这里主要用了python中常用的numpy模块,采用的数据集是来自UCI的一个数据集(https://archive.ics.uci.edu/ml/datasets/QSAR+biodegradation),总共包含1055个样本,每个样本有41个real的属性和一个类标签,包含两类(RB和NRB)。我选取800条样本作为参考样本,剩下的作为测试样本。

下面是分类器的python代码:

'''
kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5)函数
参数:
inputAttr:输入的属性向量
trainSetPath:字符串,保存训练样本的路径
lenOfInstance:样本向量的维数
startAttr:属性向量在整个样本向量中的起始下标
stopAttr:属性向量在整个样本向量中的终止下标
posOfClass:类标签的在整个样本向量中的下标
numOfClSamples:选出来进行投票的样本个数
返回值:
类标签
'''

def kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5):
    fr = open(trainSetPath)
    strOfLine = fr.readline()
    arrayOfLine = numpy.array([0.] * lenOfInstance)
    refSamples =  numpy.array([[-1., 0.]] * numOfRefSamples)
    
    #找出属性中的最大值和最小值,用于归一化
    maxAttr, minAttr = kNNFunction.dataNorm(trainSetPath = trainSetPath, lenOfInstance = lenOfInstance)
    maxAttr = maxAttr[(numpy.array(range(stopAttr - startAttr + 1)) 
                       + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
    minAttr = minAttr[(numpy.array(range(stopAttr - startAttr + 1)) 
                       + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
    attrRanges = maxAttr - minAttr
    
    inputAttr = inputAttr[(numpy.array(range(stopAttr - startAttr + 1)) 
                           + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
    inputAttr = (inputAttr - minAttr) / attrRanges              #归一化
    
    #将字符串转换为向量并进行计算找出离输入样本距离最近的numOfRefSamples个参考样本
    while strOfLine != '' :
        strOfLine = strOfLine.strip()
        strOfLine = strOfLine.split('
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值