深度学习第三节笔记—KNN算法

最新推荐文章于 2024-03-31 20:20:15 发布

爱玩的浩浩

最新推荐文章于 2024-03-31 20:20:15 发布

阅读量493

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/qq_14809847/article/details/126294633

版权

AI 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、KNN算法介绍

KNN算法又称K近邻（K-Nearest Neighbor, KNN）分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

KNN (K-Nearest Neighbor)算法，意思是K个最近的邻居，从这个名字我们就能看出一-些KNN算的蛛丝马迹了。K个最近邻居，毫无疑问，K的取值肯定是至关重要的。KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。

例如

图中绿色的点就是我们要预测的点，假设K=3。那么KNN算法就会找到与它距离最近的三个点，看看哪种类别多一些，这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。

因此K的取值是非常重要的。

二、KNN的实现步骤

1.计算距离

2.升序排列

3.取前K个

4.加权平均

实例

利用KNN算法求癌症病人检测的正确率

所使用的数据集：

实现代码：

import csv
import random

# 读取数据
with open(".\Prostate_Cancer.csv", "r") as f:
    render = csv.DictReader(f)
    datas = [row for row in render]

# 分组，打乱数据
random.shuffle(datas)
n = len(datas) // 3

test_data = datas[0:n]
train_data = datas[n:]


# print (train_data[0])
# print (train_data[0]["id"])


# 计算对应的距离
def distance(x, y):
    res = 0
    for k in ("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
        res += (float(x[k]) - float(y[k])) ** 2
    return res ** 0.5


# K=6
def knn(data, K):
    # 1. 计算距离
    res = [
        {"result": train["diagnosis_result"], "distance": distance(data, train)}
        for train in train_data
    ]
    # 2. 排序
    sorted(res, key=lambda x: x["distance"])
    # print(res)
    # 3. 取前K个
    res2 = res[0:K]
    # 4. 加权平均
    result = {"B": 0, "M": 0}
    # 4.1 总距离
    sum = 0
    for r in res2:
        sum += r["distance"]
    # 4.2 计算权重
    for r in res2:
        result[r['result']] += 1 - r["distance"] / sum

    # 4.3 得出结果
    if result['B'] > result['M']:
        return "B"
    else:
        return "M"


# print(distance(train_data[0],train_data[1]))
# 预测结果和真实结果对比，计算准确率
for k in range(1, 11):
    correct = 0
    for test in test_data:
        result = test["diagnosis_result"]
        result2 = knn(test, k)
        if result == result2:
            correct += 1
    print("k=" + str(k) + "时，准确率{:.2f}%".format(100 * correct / len(test_data)))

爱玩的浩浩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习第三节笔记—KNN算法

KNN (K-Nearest Neighbor)算法，意思是K个最近的邻居，从这个名字我们就能看出一-些KNN算的蛛丝马迹了。KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。那么KNN算法就会找到与它距离最近的三个点，看看哪种类别多一些，这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。KNN算法又称K近邻（K-Nearest Neighbor, KNN）分类算法，是一个理论上比较成熟的方法，也是最简单的。因此K的取值是非常重要的。...
复制链接

扫一扫