KNN算法简单实战

最新推荐文章于 2023-10-09 21:46:06 发布

psh111

最新推荐文章于 2023-10-09 21:46:06 发布

阅读量382

点赞数

文章标签：分类算法

本文链接：https://blog.csdn.net/psh111/article/details/102702655

版权

KNN算法简单实战

KNN算法简介
KNN算法思路
KNN算法实战
总结

KNN算法简介

KNN算法又称K近邻(knn，k-NearestNeighbor)分类算法，K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN通过测量不同特征值之间的距离进行分类。

KNN算法思路

取样本在特征空间中的k个最近的邻居，判断它们的分类情况，KNN算法将样本预测为k个最近邻居中大多数的分类情况。

KNN算法实战

参考博客
https://www.cnblogs.com/xuyiqing/p/8762066.html

数据集

使用mnist特征提取后的数据集，对于每一个mnist图像，通过CNN网络提取出1024个特征，每个图像的1024个特征保存在一行，每行最后一个数字是图像的标签，即数字[0,9]。我总共准备了1000个数据集。
数据集可从此下载，提取码: ttnr
https://pan.baidu.com/s/1Xei_yIK1BOY0cuFC4Lp0MA

具体代码

import csv
import random
import math
import operator

# 训练集
trainingSet = []
# 测试集
testSet = []


def loadDataset(filename):
    with open(filename, 'r') as file:  # 打开文件，文件句柄为file
        lines = csv.reader(file)  # 将每行数据当做列表返回
        dataset = list(lines)
#        trainSetnum = ((len(dataset) - 1) * 2) / 3;
#        print(len(dataset))
        for x in range(len(dataset) - 1):  # 遍历读取的每一行列表
            for y in range(1024):
                dataset[x][y] = float(dataset[x][y])  #因为一开始读取出来是str类型的，所以要将其转化为float类型
            if random.random() < 0.7:  # 随机赋值给训练集和测试集
                trainingSet.append(dataset[x])  # x表示的是行数
            else:
                testSet.append(dataset[x])


def euclideanDistance(instance1, instance2, length):  # 扩展到多维的欧式距离，根号(x1^2+...xi^2)
    distance = 0
    for x in range(length):
        distance += pow((instance1[x] - instance2[x]), 2)
    return math.sqrt(distance)


def getNeighbors(k, testInstance):  # 计算训练集中每一项与该实例的欧氏距离，取最近的k个
    distances = []
    length = len(testInstance) - 1;  # 这个是条目的维数，之所以要减1是因为最后一位是标签
    for x in range(len(trainingSet)):  # 遍历所有的训练集
        dist = euclideanDistance(testInstance, trainingSet[x], length)  # 计算每一个条目与当前条目的欧氏距离
        distances.append((trainingSet[x], dist))  # 把那个对应的条目和欧式距离压入数组
    distances.sort(key=operator.itemgetter(
        1))  # operator模块提供的itemgetter函数用于获取对象的哪些维的数据，opearator.itemgetter是定义了一个函数，这里是以条目的第二个域来进行排序
    neighbors = []
    for x in range(k):      #取欧拉距离最近的k个训练集
        neighbors.append(distances[x][0])
    return neighbors


def getResponse(neighbors):          # 统计类别次数，然后返回次数最多的类别作为最终的结果
    classVotes = {}
    for x in range(len(neighbors)):
        response = neighbors[x][-1]  # 取每个邻居的最后一维，即标签
#        print(response,end=" ")
        if response in classVotes:   # 如果标间存在classVotes列表中，则对应条目加1，否则新建条目
            classVotes[response] += 1
        else:
            classVotes[response] = 1
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)  # 按照classVotes的第二个域来排序,classVotes的结构是一个个键值对构成的列表，比如“5”：1，表示邻近k个元素中标签为5的元素有1个
#    print(classVotes)
    return sortedVotes[0][0]


def getAccuracy(predictions):  # 验证精确度，将测试级中预测的类别和测试集中正确的类别对比，得出精确百分比
    correct = 0
    for x in range(len(testSet)):
        if testSet[x][-1] == predictions[x]:
            correct += 1
    return (correct / float(len(testSet))) * 100.0


def main():
    loadDataset(r'data.txt')
    print('Train set:' + repr(len(trainingSet)))
    print('Test Set:' + repr(len(testSet)))
    predictions = []
    k = 3
    for x in range(len(testSet)):
        neighbors = getNeighbors(k, testSet[x])#首先获得距测试集第x个元素距离前k的邻居
        result = getResponse(neighbors)        #返回预测的结果
        predictions.append(result)
        print('>predicted=' + repr(result) + ',actual=' + repr(testSet[x][-1]))#输出预测的结果和真实的结果
    accuracy = getAccuracy(predictions)
    print('Accuracy:' + repr(accuracy) + '%')

if __name__ == '__main__':
    main()

运行结果

在这里插入图片描述
取了两次测试的结果，可以看到当数据集够大的时候效果还是不错的，之前只有100个数据集的时候，准确率只有百分60左右，代码原理基本都有注释，如还有不懂可以看下我参考的那篇博客，也可以私信我一起讨论。

总结

KNN算法应该是最简单的一类分类算法了，个人觉得当做分类算法的入门学习还是很不错的，如有问题，请指正。

psh111

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
KNN算法简单实战

KNN算法KNN算法简介KNN算法思路KNN算法实战KNN如何改变文本的样式KNN算法简介KNN算法又称K近邻(knn，k-NearestNeighbor)分类算法，K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN通过测量不同特征值之间的距离进行分类。KNN算法思路取样本在特征空间中的k个最近的邻居，判断它们的分类情况，KNN算法将样本预测为k个最...
复制链接

扫一扫