机器学习笔记 十四:k-近邻算法(kNN)的实现

1. 什么是机器学习

简单地说,机器学习就是把无序的数据转换成有用的信息。主要任务就是分类

机器学习的应用:
在这里插入图片描述
机器学习算法:

在这里插入图片描述

机器学习会涉及很多统计学的知识,我认为机器学习可以等同于统计学,比如对于一件事情都评价,我们每个人的标准都是不一样的,所以最后得到的评价模型也是不一样的,这个时候就需要结合统计学的知识,通过大量的例子,从中找到共性,来构建我们的模型。

2. k-近邻算法(kNN)

k-近邻算法采用测量不同特征值之间的距离方法进行分类:
在这里插入图片描述备注: 一般来说,只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。

2.1 kNN的原理

通过图片进行解释,第一张图片是通过两个特征构建的一个坐标系(接吻镜头和打斗镜头),在此我们需要预测问号电影属于哪一个类别的电影,所以由第二张图可以绘制出他的坐标位置,并建立它与其他已知坐标点之间的距离,可以得到第三张图。我们假设 k=3 ,通过前3部电影的类型,我们可以预测出未知电影的类型为爱情片。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 k-近邻算法的一般流程

(1) 收集数据: 可以使用任何方法。
(2) 准备数据: 距离计算所需要的数值,最好是结构化的数据格式。
(3) 分析数据: 可以使用任何方法。
(4) 训练算法: 此步骤不适用于k-近邻算法。
(5) 测试算法: 计算错误率。
(6) 使用算法: 首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

2.3 kNN伪代码

(1) 计算已知类别数据集中的点与当前点 (未知点) 之间的距离;
(2) 按照距离递增顺序排列;
(3) 选取与当前点 (未知点) 距离最小的k个点;
(4) 确定前k个点所在类别的出现频率;
(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。

3. 函数介绍

3.1 get()函数:利用字典统计列表中元素出现次数
ls=['a','b','c','d','a']

cou={} #创建一个空字典
for i in ls:
    cou[i]=cou.get(i,0)+1     #之后称其为get的赋值语句,目的是新建字典键值对
    
    '''
    赋值语句代码等价于
    cou[i]=0
    cou[i]=cou[i]+1
    '''
print(cou)

输出结果:

{'a': 2, 'b': 1, 'c': 1, 'd': 1}

cou[i]=cou.get(i,0)+1 : 从逻辑上执行了两次,而这两次里get语句每次执行时的功能是不一样的:

  • 第一次: cou[i]=cou.get(i,0)+1(i=‘aa’)
    此时get语句的功能为赋初值,即把键’a’的初值置为0然后加1

  • 第二次: cou[i]=cou.get(i,0)+1(i=‘aa’)
    因get语句已经作为赋值语句出现过一次了,因此此时再执行这条语句时,赋值功能已经无效了,也就是get语句里第二个参数对’a’这个键已经无效了,所以这条语句此时可等价为:cou[i]=cou.get(i)+1

3.2 strip()函数

strip() 用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。

str = "0000000this is string example....wow!!!0000000"

print (str.strip( '0' ))

输出结果:

this is string example....wow!!!
3.3 python中使用matplotlib时,其中的add_subplot(111)含义

绘制网格图,而三个参数的含义如下:
1.第一个参数和第二个参数表示网格的个数
2.第三个参数表示第几个子图

例如:

  • 111: 表示整个网格只有一个(1*1),那么子图也只有一个,所以当前两个参数都是1的时候,第三个参数只能是1
  • 221-222-223-224:第一个参数和第二个参数表示整个网格有 4(2*2) ,也就是4个子图,可以按坐标系进行理解,一共4个区域。那么最后一个参数表示第几个子图,显然一共有4个子图,就看你怎么排版。
3.4 tile():把数组沿各个方向复制

比如 a = np.array([0,1,2])np.tile(a,(2,1)) 就是把a先沿x轴复制1倍,即没有复制,仍然是 [0,1,2]。 再把结果沿y方向复制2倍,即最终得到
array([[0,1,2], [0,1,2]])
在这里插入图片描述

3.5 min(0),max(0)

min(0)返回该矩阵中每一列的最小值
min(1)返回该矩阵中每一行的最小值
max(0)返回该矩阵中每一列的最大值
max(1)返回该矩阵中每一行的最大值

4. kNN实现

数据集:

在这里插入图片描述

'''
Created on July 27, 2022
kNN: k Nearest Neighbors

Input:      inX: 输入向量 (1xN)
            dataSet: 训练样本集 (NxM)
            labels: 标签向量 (1xM vector)
            k: 最近邻居数目 (should be an odd number)

Output:     the most popular class label

@author: amyniez
'''

from numpy import *
import operator
from os import listdir


def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    
    ## 欧式距离计算
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort()   # 获取排列的位置索引

    ## 选择距离最近都k个点
    # 统计列表中每个元素出现次数
    classCount = {}   # 创建空字典
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1     # 新建字典键值对,赋予初始值为0
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)   # 创建一个迭代器,获取容器中第1维的数据
    return sortedClassCount[0][0]


def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels


# 文本文件格式转换为矩阵
def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector


# 归一化处理
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]                              # 获取数据集的行数
    normDataSet = dataSet - tile(minVals, (m, 1))     # tile复制数据集为1000*3,m代表行扩大m倍,1代表列
    normDataSet = normDataSet / tile(ranges, (m, 1))  # element wise divide
    return normDataSet, ranges, minVals


def datingClassTest():
    hoRatio = 0.50  # hold out 10%
    datingDataMat, datingLabels = file2matrix('TestSet1.txt')  # load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))
    print(errorCount)


def img2vector(filename):
    returnVect = zeros((1, 1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32 * i + j] = int(lineStr[j])
    return returnVect


def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')  # load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m, 1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i, :] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')  # iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount / float(mTest)))

import kNN
import matplotlib
import matplotlib.pyplot as plt


group, lables = kNN.createDataSet()

Matr, Labels = kNN.file2matrix('TestSet1.txt')

fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(Matr[:,1], Matr[:,2])
plt.show()

normSet, ranges, minVals = kNN.autoNorm(Matr)
kNN.datingClassTest()

图像显示:
在这里插入图片描述
分类精读:
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jackson的生态模型

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值