机器学习之K邻近算法

咸鱼不贤

于 2021-10-03 19:00:43 发布

阅读量260

点赞数

文章标签：算法机器学习

本文链接：https://blog.csdn.net/qq_54685803/article/details/120597074

版权

K-邻近算法是一种简单的分类技术，通过计算未知样本与已知样本的距离，选择最近的K个样本，依据多数类别决定未知样本归属。本文介绍了算法原理，包括距离计算、选取邻居和分类过程，并提供了Python实现示例。同时，讨论了K-邻近算法的优缺点，如无需训练、适用于稀有事件分类，但计算量大、可解释性差。

摘要由CSDN通过智能技术生成

K-邻近算法简介和原理

K-邻近算法是数据分类技术中最简单的算法之一，其实现原理为：为了判断未知样本的类别，以所有已知类别的样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的K个已知样本，根据少数服从多数的投票法则，将未知样本与K个最邻近样本中所属类别占比较多的归为一类。其中K的值等于要选取的最邻近样本实例的个数。由于K邻近算法在分类时只依据最邻近的一个或几个样本的类别来决定未知样本所属的类别，而不是靠判别类域的方法来确定所属类别，因此对于类域的交叉或重叠较多的未知样本集来说，K-邻近算法较其他方法更为适合。

K-邻近算法距离计算的两种方法

在这里插入图片描述

K-邻近算法的一般流程

（1）算距离：给定未知样本，计算它与已知样本中的每个样本的距离；

（2）找邻居：圈定与未知样本距离最近的K个已知样本，作为未知样本的近邻；

（3）做分类：根据这K个近邻中的大部分已知样本所属的类别来决定未知样本该属于哪个分类；

K-邻近算法的实现

import math
import csv
import operator
import random
import numpy as np
from sklearn.datasets import make_blobs
 
#Python version 3.6.5
 
# 生成样本数据集 samples(样本数量) features(特征向量的维度) centers(类别个数)
def createDataSet(samples=100, features=2, centers=2):
    return make_blobs(n_samples=samples, n_features=features, centers=centers, cluster_std=1.0, random_state=8)
 
# 加载鸢尾花卉数据集 filename(数据集文件存放路径)
def loadIrisDataset(filename):
    with open(filename, 'rt') as csvfile:
        lines = csv.reader(csvfile)
        dataset = list(lines)
        for x in range(len(dataset)):
            for y in range(4):
                dataset[x][y] = float(dataset[x][y])
        return dataset
    
# 拆分数据集 dataset(要拆分的数据集) split(训练集所占比例) trainingSet(训练集) testSet(测试集)
def splitDataSet(dataSet, split, trainingSet=[], testSet=[]):
    for x in range(len(dataSet)):
        if random.random() <= split:
            trainingSet.append(dataSet[x])
        else:
            testSet.append(dataSet[x])
# 计算欧氏距离 
def euclideanDistance(instance1, instance2, length):
    distance = 0
    for x in range(length):
        distance += pow((instance1[x] - instance2[x]), 2)
    return math.sqrt(distance)
 
# 选取距离最近的K个实例
def getNeighbors(trainingSet, testInstance, k):
    distances = []
    length = len(testInstance) - 1
    for x in range(len(trainingSet)):
        dist = euclideanDistance(testInstance, trainingSet[x], length)
        distances.append((trainingSet[x], dist))
    distances.sort(key=operator.itemgetter(1))
    
    neighbors = []
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors
 
#  获取距离最近的K个实例中占比例较大的分类
def getResponse(neighbors):
    classVotes = {}
    for x in range(len(neighbors)):
        response = neighbors[x][-1]
        if response in classVotes:
            classVotes[response] += 1
        else:
            classVotes[response] = 1
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
    return sortedVotes[0][0]
 
# 计算准确率
def getAccuracy(testSet, predictions):
    correct = 0
    for x in range(len(testSet)):
        if testSet[x][-1] == predictions[x]:
            correct += 1
    return (correct / float(len(testSet))) * 100.0
 
 
def main():
    # 使用自定义创建的数据集进行分类
    # x,y = createDataSet(features=2)
    # dataSet= np.c_[x,y]
    
    # 使用鸢尾花卉数据集进行分类
    dataSet = loadIrisDataset(r'C:\DevTolls\eclipse-pureh2b\python\DeepLearning\KNN\iris_dataset.txt')
        
    print(dataSet)
    trainingSet = []
    testSet = []
    splitDataSet(dataSet, 0.75, trainingSet, testSet)
    print('Train set:' + repr(len(trainingSet)))
    print('Test set:' + repr(len(testSet)))
    predictions = []
    k = 7
    for x in range(len(testSet)):
        neighbors = getNeighbors(trainingSet, testSet[x], k)
        result = getResponse(neighbors)
        predictions.append(result)
        print('>predicted=' + repr(result) + ',actual=' + repr(testSet[x][-1]))
    accuracy = getAccuracy(testSet, predictions)
    print('Accuracy: ' + repr(accuracy) + '%')
main()

K-邻近算法的优缺点

优点：简单，易于理解，无需建模与训练，易于实现；适合对稀有事件进行分类；适合与多分类问题。

缺点：惰性算法，内存开销大，对测试样本分类时计算量大，性能较低；可解释性差，无法给出决策树那样的规则。

咸鱼不贤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之K邻近算法

K-邻近算法简介和原理K-邻近算法是数据分类技术中最简单的算法之一，其实现原理为：为了判断未知样本的类别，以所有已知类别的样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的K个已知样本，根据少数服从多数的投票法则，将未知样本与K个最邻近样本中所属类别占比较多的归为一类。其中K的值等于要选取的最邻近样本实例的个数。由于K邻近算法在分类时只依据最邻近的一个或几个样本的类别来决定未知样本所属的类别，而不是靠判别类域的方法来确定所属类别，因此对于类域的交叉或重叠较多的未知样本集来说，K
复制链接

扫一扫