KNN算法

最新推荐文章于 2023-10-09 21:09:59 发布

Allmyg

最新推荐文章于 2023-10-09 21:09:59 发布

阅读量481

点赞数 1

分类专栏：我的项目文章标签： python 算法

本文链接：https://blog.csdn.net/allmyg/article/details/119892889

版权

我的项目专栏收录该内容

28 篇文章 2 订阅

订阅专栏

KNN算法

什么是KNN算法

KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一。KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，从这个名字我们就能看出一些KNN算法的蛛丝马迹了。KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。
如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。
在这里插入图片描述

KNN算法原理

通用步骤

计算距离
升序排列
取前K个
加权平均

K值的选取

我们知道K的取值比较重要，那么该如何确定K取多少值好呢？答案是通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据），从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

通过交叉验证计算方差后你大致会得到下面这样的图：
K值与Error

这个图其实很好理解，当你增大k的时候，一般错误率会先降低，因为有周围更多的样本可以借鉴了，分类效果会变好。但注意，和K-means不一样，当K值更大的时候，错误率会更高。这也很好理解，比如说你一共就35个样本，当你K增大到30的时候，KNN基本上就没意义了。

所以选择K点的时候可以选择一个较大的临界K点，当它继续增大或减小的时候，错误率都会上升，比如图中的K=10。

KNN算法实战应用

1.读取数据

import csv

with open('Prostate_Cancer.csv','r') as file:
    reader=csv.DictReader(file)
    datas=[row for row in reader]

2.分组
将前1/3的数据作为测试数据，后2/3的数据作为训练数据

random.shuffle(datas)
n=len(datas)//3

test_set=datas[0:n]
train_set=datas[n:]

3.计算距离

def distance(d1,d2):
    res=0
    for key in("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
        res+=(float(d1[key])-float(d2[key]))**2

    return res**0.5

4.根据距离进行升序排序，并进行加权平均计算

k=5
def knn(data):
    res=[
        {"result":train['diagnosis_result'], "distance":distance(data,train)}
        for train in train_set
    ]

    res=sorted(res, key=lambda item:item['distance'])

    res2=res[0:k]

    result={'B':0, 'M':0}

    sum=0
    for r in res2:
        sum+=r['distance']
    for r in res2:
        result[r['result']]+=1-r['distance']/sum

    if result['B']>result['M']:
        return 'B'
    else:
        return 'M'

5.对数据进行测试，输出结果

correct=0
for test in test_set:
    result=test['diagnosis_result']
    result2=knn(test)

    if result==result2:
        correct+=1

print("准确率: {:.2f}%".format(100*correct/len(test_set)))

KNN算法优缺点

KNN算法优点

1.简单易用，相比其他算法，KNN算是比较简洁明了的算法。即使没有很高2.的数学基础也能搞清楚它的原理。
3.模型训练时间快，上面说到KNN算法是惰性的，这里也就不再过多讲述。
4.预测效果好。
5.对异常值不敏感

KNN算法缺点

1.对内存要求较高，因为该算法存储了所有训练数据
2.预测阶段可能很慢
3.对不相关的功能和数据规模敏感

完整代码

import random
import csv

with open('Prostate_Cancer.csv','r') as file:
    reader=csv.DictReader(file)
    datas=[row for row in reader]

random.shuffle(datas)
n=len(datas)//3

test_set=datas[0:n]
train_set=datas[n:]


def distance(d1,d2):
    res=0
    for key in("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
        res+=(float(d1[key])-float(d2[key]))**2

    return res**0.5

k=5
def knn(data):
    res=[
        {"result":train['diagnosis_result'], "distance":distance(data,train)}
        for train in train_set
    ]

    res=sorted(res, key=lambda item:item['distance'])

    res2=res[0:k]

    result={'B':0, 'M':0}

    sum=0
    for r in res2:
        sum+=r['distance']
    for r in res2:
        result[r['result']]+=1-r['distance']/sum

    if result['B']>result['M']:
        return 'B'
    else:
        return 'M'

correct=0
for test in test_set:
    result=test['diagnosis_result']
    result2=knn(test)

    if result==result2:
        correct+=1

print("准确率: {:.2f}%".format(100*correct/len(test_set)))