K-近邻算法

最新推荐文章于 2023-08-13 11:31:47 发布
小白鼠666
最新推荐文章于 2023-08-13 11:31:47 发布
阅读量175
点赞数
分类专栏：机器学习实战
本文链接：https://blog.csdn.net/qq_35643146/article/details/111250071
版权
机器学习实战专栏收录该内容
1 篇文章 0 订阅
订阅专栏
from numpy import *
import operator
import matplotlib.pyplot as plt
import operator
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines


def createDataSet():
    # 每一个axis=1 对应一个数据集 （x,y）
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) \
        # labels= group.shape[0] 对应的是每个数据的类别
    labels = ['A', 'A', 'B', 'B']
    return group, labels


def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    # 以下四条语句是对距离inx中数据和dataSet中数据的距离的计算

    # tile函数对象的作用就是在横向上进行复制 下面这条语句的作用是 在 axis=0的方向上复制dataSetSize次
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    # 对每一个元素进行平方运算
    sqDiffMat = diffMat ** 2
    # 对axis=1的轴进行求和运算
    sqDistances = sqDiffMat.sum(axis=1)
    # 对sqDistance中的每一个元素进行开方运算
    distances = sqDistances ** 0.5
    # argsort()函数是把目标数组对象从小到大进行排序，最后返回每个元素的索引值
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        # [语句理解](https://blog.csdn.net/weixin_42303096/article/details/80461857)
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
        # items返回的是元组值
        # [语句的理解](https://blog.csdn.net/dongtingzhizi/article/details/12068205)
    sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]


# group, labels = createDataSet()
# print(classify0([0, 0], group, labels, 3))


# 使用K-近邻算法改进约会网站的配对效果
# file2matrix()函数的作用是把待处理的数据格式改变为分类器可以接受的格式
#  该函数的输入为文件名（字符串） ，输出为训练样本的矩阵和类标签向量
def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    # 创建一个（numberOfLines，3）的数组
    returnMat = zeros((numberOfLines, 3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        # 去除首尾字符的空格
        line = line.strip()
        # 使用\t作为分隔符，进行分割
        listFromLine = line.split('\t')
        # : 可有可无
        returnMat[index, :] = listFromLine[0:3]
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        else:
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector


# datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
# print(datingDataMat)
# print(datingLabels)

# # 分析数据使用matplotlib创建散点图
# fig = plt.figure()
# # 创建子图
# # 创建子图的形式，第一个参数是行，第二个参数是列，把当前画布分成行乘列的形式。画布上每一部分从左上角
# # 从1开始递增
# ax = fig.add_subplot(111)
# # fx=fig.add_subplot(122)
# # 第一个15.0*array(datingLabels)控制的点的尺寸，第二个控制的是颜色
# ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0 * array(datingLabels), 15.0 * array(datingLabels))
# # fx.scatter(datingDataMat[:, 1],datingDataMat[:, 2])
# plt.show()

def showData():
    datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
    # 显示数据
    font = FontProperties(fname="C:\Windows\Fonts\STXINGKA.TTF", size=14)
    # axe前面必须加上figure 否则会报错
    fig, axe = plt.subplots(nrows=2, ncols=2, sharex=False, sharey=False, figsize=(20, 12))
    numberoflabels = len(datingLabels)
    labelcolors = []
    for i in datingLabels:
        if i == 1:
            labelcolors.append('black')
        elif i == 2:
            labelcolors.append('orange')
        else:
            labelcolors.append('blue')

    axe[0][0].scatter(datingDataMat[:, 0], datingDataMat[:, 1], c=labelcolors, s=15, alpha=0.5)
    axe0_title_text = axe[0][0].set_title("每年的飞行常客里程数和玩视频游戏的百分比的关系")
    axe0_xlabel_text = axe[0][0].set_xlabel("每年获得的飞行常客里程数")
    axe0_ylabel_text = axe[0][0].set_ylabel("玩视频游戏所耗时间的百分比")
    plt.setp(axe0_title_text, color='red', size=9, FontProperties=font, weight='bold')
    plt.setp(axe0_xlabel_text, color='black', size=7, FontProperties=font, weight='bold')
    plt.setp(axe0_ylabel_text, color='black', size=7, FontProperties=font, weight='bold')

    axe[0][1].scatter(datingDataMat[:, 0], datingDataMat[:, 2], c=labelcolors, s=15, alpha=0.5)
    axe1_title_text = axe[0][1].set_title('每年的获得的飞行常客里程数和每周消费的冰淇淋公升数')
    axe1_xlabel_text = axe[0][1].set_xlabel("每年获得的飞行常客里程数")
    axe1_ylabel_text = axe[0][1].set_ylabel("每周消费的冰淇淋那个公升数")
    plt.setp(axe1_title_text, color='red', size=9, FontProperties=font, weight='bold')
    plt.setp(axe1_xlabel_text, color='black', size=9, FontProperties=font, weight='bold')
    plt.setp(axe1_ylabel_text, color='black', size=9, FontProperties=font, weight='bold')

    axe[1][0].scatter(datingDataMat[:, 1], datingDataMat[:, 2], c=labelcolors, s=15, alpha=0.5)
    axe2_title_text = axe[1][0].set_title('玩视频游戏所耗费的时间百分比和每周消费的冰淇淋公升数的关系')
    axe2_xlabel_text = axe[1][0].set_xlabel('玩视频游戏所耗费的时间百分比')
    axe2_ylable_text = axe[1][0].set_ylabel('每周消费的冰淇淋公升数')
    plt.setp(axe2_title_text, color='red', weight='bold', size=9, FontProperties=font)
    plt.setp(axe2_xlabel_text, color='black', weight='bold', size=9, FontProperties=font)
    plt.setp(axe2_ylable_text, color='black', weight='bold', size=9, FontProperties=font)

    # 添加图标
    didntLike = mlines.Line2D([], [], color='black', marker='.',
                              markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='black', marker='.',
                               markersize=6, label='smallDoses')
    LargeDoses = mlines.Line2D([], [], color='black', marker='.',
                               markersize=6, label='LargeDoses')

    axe[0][0].legend(handles=[didntLike, smallDoses, LargeDoses])
    axe[0][1].legend(handles=[didntLike, smallDoses, LargeDoses])
    axe[1][0].legend(handles=[didntLike, smallDoses, LargeDoses])

    plt.show()


# showData()

# 准备数据 数据的归一化处理
# 所说的最大值还是最小值都是针对于列说的 取值范围也是针对列说的。
def autoNorm(dataSet):
    # 0 的作用是从列中选取最小值，而不是从行中选取最小值
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normalDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet / tile(ranges, (m, 1))
    return normDataSet, ranges, minVals


# datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
# norMat, ranges, minVals = autoNorm(datingDataMat)
# print(norMat)
# print(ranges)
# print(minVals)

# 分类器针对于约会网站的测试代码
# 计算错误率
def datingClassTest():
    hoRatio = 0.1
    # 从文件中读取数据
    datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
    # 对数据进行归一化处理
    norMat, ranges, minVals = autoNorm(datingDataMat)
    # 得到处理后数据的行
    m = norMat.shape[0]
    # 90%的数据用于训练，10%的数据用于测试 得到该数据集中用于测试的数据的条数
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    #  前numTestVecs条数据用于测试
    for i in range(numTestVecs):
        classifierResult = classify0(norMat[i, :], norMat[numTestVecs:m, :],
                                     datingLabels[numTestVecs:m], 3)
        # 第i条数据原来就有正确的分类，在经过分类算法后，再次得到了一个分类
        print("the classifier came back with: %d, the real answer is %d"
              % (classifierResult, datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errorCount += 1
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))


# datingClassTest()


def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input('percentage of time spent playing video games?'))
    ffMiles = float(input("frequent filer miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    # 出现了错误 如果使用datingTestSet2.txt会一直报你一点都不喜欢的错误
    # 使用datingTestSet1.txt的数据集会出现正确答案
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    norMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])
    # 用于分类的数据也要经过重新处理
    classifierResult = classify0((inArr - minVals) / ranges, norMat, datingLabels, 3)
    print("You will probably like this person:", resultList[classifierResult - 1])

classifyPerson()


# 手写识别系统
# 32*32的图像处理成了一个向量
# 该函数创建1×1024的NumPy数组，然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在NumPy数组中，最后返回数组。
def img2vector(filename):
    returnVect = zeros((1, 1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32 * i + j] = int(lineStr[j])
    return returnVect


# 对函数的测试 通过与原来的数据进行比对
# filename = 'testDigits/0_13.txt'
# testVector = img2vector(filename)
# print(testVector[0, 0:31])
# print(testVector[0, 32:63])

# 将数据输入到分类器中，检查分类器的执行效果
def handwritingClassTest():
    hwLables = []
    # 获得目录内容存储在列表当中
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m, 1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        # 使用这种划分的方法 的到目标数字
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        # 目标数字存储在hwlabels中
        hwLables.append(classNumStr)
        # 把trainingDigits中所有的文件都转换成（1，1024）的向量
        trainingMat[i, :] = img2vector('trainingDigits/%s' % fileNameStr)

    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        # 把当前要测试的图像文件转化成（1，1024）的可读取的向量文件
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLables, 3)
        print("the classifier came back with %d,the real answer is: %d"
              % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is:%f" % (errorCount / float(mTest)))


handwritingClassTest()
小白鼠666
关注
0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
K-近邻算法

from numpy import *import operatordef createDataSet(): # 每一个axis=1 对应一个数据集（x,y） group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) \ # labels= group.shape[0] 对应的是每个数据的类别 labels = ['A', 'A', 'B', 'B'] return group, labels
复制链接

扫一扫