机器学习第001篇之KNN最邻近分类算法

最新推荐文章于 2024-04-02 13:54:38 发布

星空下的那个人影

最新推荐文章于 2024-04-02 13:54:38 发布

阅读量691

点赞数 1

分类专栏： python机器学习

本文链接：https://blog.csdn.net/sb_jb/article/details/104599227

版权

python机器学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

一、KNN算法的核心思想：寻找最近的k个数据，推测新数据的分类

二、KNN算法的原理：

计算测量数据与各个训练数据之间的距离；
按照距离的递增关系进行排序；
选取前k个距离最小的点；
对这前k个点距离取加权平均数；

三、计算距离量度方式包括：

样本空间内的两个点之间的距离量度表示两个样本点之间的相似程度：距离越短，表示相似程度越高；反之，相似程度越低。量度空间中点的距离，有好几种量度方式，比如常见的曼哈顿距离计算，欧式距离计算等等。不过通常KNN算法中使用的是欧式距离，不用曼哈顿距离。

曼哈顿距离只计算水平或垂直距离，有维度的限制。

欧式距离可用于任何空间的距离计算问题。

样本空间内的数据点可以存在于任何空间，欧氏距离是更可行的选择。

四、k的选取：

k太大：导致分类模糊
k太小：受个例影响，波动较大
在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据），从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。
一般也要选择K的值应该尽量选择为奇数，并且不要是分类结果的偶数倍，否则会出现同票的情况。

五、应用——癌症数据模拟：

import random
import csv

#读取
with open('F:\python_jqxx\knn\Prostate_Cancer.csv','r') as file:
    # 以字典的形式读取文件
    reader = csv.DictReader(file)
    #放入list中
    datas = [row for row in reader]

#分组
#打乱顺序
random.shuffle(datas)
#训练集
n = len(datas)//3
train_set = datas[n:]
#测试集
test_set = datas[0:n]

#knn
#距离(欧氏距离)
def distance(d1,d2):
    res = 0;
    for key in ("radius", "texture", "perimeter",
                "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
        #平方
        res += (float(d1[key]) - float(d2[key]))**2
    #开方
    return res**0.5

k = 3
def knn(data):
    #距离
    res=[
        {"result":train['diagnosis_result'],"distance":distance(data,train)}
        for train in train_set
    ]
    #res = [{'result': 'M', 'distance': 138.97843884214558}, {'result': 'M', 'distance': 264.20447461767185}...]

    #升序排序
    res = sorted(res,key = lambda item:item['distance'])

    #取前k个
    res2 = res[0:k]

    #加权平均
    result = {'B':0,'M':0}

    #总距离
    sum = 0
    for r in res2:
        sum += r['distance']

    for r in res2:
        #加权
        result[r['result']] += 1 - r['distance']/sum

    if result['B'] > result['M']:
        return 'B'
    else:
        return 'M'

#测试阶段
correct = 0
for test in test_set:
    result = test['diagnosis_result']
    result2 = knn(test)

    if result == result2:
        correct = correct + 1;

print("准确率：{:.2f}%".format(correct*100/len(test_set)))

结果：