机器学习KNN python算法实现

最新推荐文章于 2024-04-24 22:39:55 发布

Sean_zzZ

最新推荐文章于 2024-04-24 22:39:55 发布

阅读量751

点赞数

分类专栏：机器学习个人笔记文章标签： python 机器学习算法 knn分类器

本文链接：https://blog.csdn.net/github_38151745/article/details/71307949

版权

机器学习个人笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

KNN 算法主要是根据计算输入数据的距离进行分类通常使用欧氏距离来进行计算

from numpy import *
import matplotlib
import matplotlib. pyplot as plt
# 数据准备
def creatDataSet():
    group=array([[1.0,1.1 ]  , [1.0,1.0], [0,0 ], [0,0.1]])
    lables=['A','A','B','B']
    return group,lables
# group,lables=creatDataSet()   测试数据

KNN分类算法
函数有 4 个输人参数 : 需要进行分类的输人向量，输人的训练样本集为
标签向量为 libles，最后的参数义表示用于选择最近邻居的数目，其中标签向量的元素数目和矩
阵 dataset的行数相同

def clasify(intx,dataSet,lables,k):


    计算距离 k为选 取 与 当 前 点距 离 最 小 的 点

    dataSetSize=dataSet.shape[0]  #读取矩阵第一维度的长度
    difMat=tile(intx,(dataSetSize,1))-dataSet   #已知数据和输入数据相减
    sqdifmat=difMat**2   #相减数据的结果平方  采用欧式距离公式计算
    sqdistance=sqdifmat.sum(axis=1)  #将一个矩阵的每一行向量相加
    distance=sqdistance**0.5#对结果开二次更号
    sortDist=distance.argsort() #对结果进行排序
    classCount={}
    for i in range(k):
        votelabel=lables[sortDist[i]] # 选取出相邻的k个数
        classCount[votelabel]=classCount.get(votelabel,0)+1
        sortClassCount= sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)  #排序
        return sortClassCount[0][0] # 取出数据

# a=clasify([0,0],group,lables,3)
# print a    测试

下面的算法是根据KNN 算法来进行约会网站的配对效果：
根据样本特征对人群进行分类
特征包括：每年获得的飞行常客里程数，玩视频游戏所耗时间百分比，每周消费的冰淇淋公升数
标签包括：不喜欢的人，魅力一般的人，极具魅力的人

首先是对输入样本进行解析

# 文件读取
def filematrix(filename):    
    fr = open(filename)# 读取文本
    numberOfLines = len(fr.readlines())         #获取文件的长度
    returnMat = zeros((numberOfLines,3))        #创建返回的numpy矩阵 所有元素都是0的矩阵
    classLabelVector = []                       #创建标签矩阵
    fr = open(filename)# 读取文本
    index = 0
    for line in fr.readlines():
        line = line.strip()#截取回车字符
        listFromLine = line.split('\t') #对数据进行分割
        returnMat[index,:] = listFromLine[0:3]#取前三个数据 放入返回的列表中
        classLabelVector.append((listFromLine[-1]))#取最后一个数据 ，放入标签列表中
        index+=1
    return returnMat,classLabelVector
# datingDataMat,datingLabels = filematrix('datingTestSet.txt')  测试数据集是否正确分类，具体数据可在网上下载

使用matplotlib 创建散点图，可视化数据
fig =plt.figure()
ax=fig.add_subplot(111)
# ax.scatter(datingDataMat[:,1],datingDataMat[:,2]) #散点图截取举证的 第二，第三列数据
# plt.show()

由于数据中很多数字差值过大，对计算结果产生影响，对数值进行归一化处理在机器学习中很多数据都需要进行数据归一化处理。当然也可以利用python第三方库进行数据的特征提取和处理。例如分类变量的特征提取。通过sklearn的Dictvertiruzer 类来提取特征以及通过词库模式对文字特征进行提取。对于图片可以通过像素值提取特征

下面函数自动把数值特征值转化为0,1之间

def autoNorm(dataSet):
    minVals = dataSet.min(0) #去列中的最小值
    maxVals = dataSet.max(0)#取最大值
    ranges = maxVals - minVals #取范围，范围是最大值-最小值
    normDataSet = zeros(shape(dataSet)) #创建全为0的返回矩阵
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   
    return normDataSet, ranges, minVals
# normMat, ranges, minVals =autoNorm(datingDataMat)
# print normMat 测试数据

下面的函数#是一个测试算法：作为完整程序验证分类判断分类器的正确率如何

def dateTest():
    hoRatio = 0.50      
    datingDataMat,datingLabels = filematrix('datingTestSet.txt')       #读取数据
    normMat, ranges, minVals = autoNorm(datingDataMat) #归一化数据值
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = clasify(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) #对数据进行分类 ， 3 选 择 最 近 邻 数据的 数 目
        print u"分类结果是: %s, 真的结果是: %s" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print u"总共的错误率: %f" % (errorCount/float(numTestVecs))
    print u"错误数量%d"%errorCount
# dateTest()

下面是对单个用户进行预测使用的python版本是2.7

def classifyPerson():
    percntTats =float(raw_input(u"每年玩游戏的比例"))
    ffmiles=float(raw_input(u"每年飞机里程数  "))
    iceCream =float(raw_input(u"每年冰淇淋的消耗?"))
    datingDataMat,datingLabels = filematrix('datingTestSet.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inarr=array([percntTats,ffmiles,iceCream])
    result=clasify((inarr-minVals)/ranges,normMat,datingLabels,3)
    print result
# classifyPerson()

下面的函数是实现使用k 邻近的手写识别系统
该系统只能是识别数字 0 到9 ，其中train文件中包括2000个例子，test文件中大约900个测试数据

将图像转为测试向量
该函数创建 1乘1024 的 numpy 数
组，然后打开给定的文件，循环读出文件的前 32 行，并将每行的头 32 个字符值存储在数组
中，最后返回数组

def chageimage(filename):
    Vect = zeros((1,1024)) # 创建一个1x1024的数组
    fr= open(filename)
    for i in range(32):
        line=fr.readline()
        for j in range(32):
            Vect[0,32*i+j] = int(line[j])
    return Vect
# a= chageimage('testDigits/0_13.txt')
# print a[0,32:63] 测试

下面函数是书写数字识别系统测试

from os import listdir
def HWClassTest():
    hwlibes=[]
    trainFile= listdir('trainingDigits')# 列出给定目录的文件名
    m = len(trainFile)#获取文件列表的长度
    trainingMat=zeros((m,1024)) # 创建数组
    for i in range(m):
        fileName=trainFile[i] # 获取训练文件
        filestr= fileName.split('.')[0]
        classNum = int(filestr.split('_')[0]) # 从文件名解析分类数字
        hwlibes.append(classNum)
        trainingMat[i,:] = chageimage('trainingDigits/%s' % fileName) 
    testFile= listdir('testDigits')
    errorcount = 0.0
    mTest = len(testFile)
    for i in range(mTest):
        fileNameStr = testFile[i]
        fileStr = fileNameStr.split('.')[0]     
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = chageimage('testDigits/%s' % fileNameStr)
        classifierResult = clasify(vectorUnderTest, trainingMat, hwlibes, 3)
        print u"分类结果是: %s, 真的结果是: %s" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorcount += 1.0
    print u"总共的错误率: %f" % (errorcount/float(mTest))
    print u"错误数量%d"%errorcount
# HWClassTest()

改变变量 k 的值、修改函数随机选取训练原本、改变训练样本的数目，都会对 K- 近邻算法的错误率产生影响
而在K 近邻算法的实现中KD 树和KD树搜索是K 近邻算法的优化版，可以节省计算开销
K近邻算法必须保存全部的数据集，如果训练数据集过大，必须使用大量的存储空间
由于需要对数据集中的每个数据计算距离值，实际使用实际是比较耗时的
对于大规模数据的分类一般是不推荐使用KNN的