机器学习--KNN算法概述(1)无项目

最新推荐文章于 2024-07-10 00:27:04 发布

dddffx1

最新推荐文章于 2024-07-10 00:27:04 发布

阅读量347

点赞数 11

文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/m0_74089897/article/details/135264721

版权

KNN算法概述

问题

计算新事件与数据集的距离，来划分为是什么策略

流程图

代码与运行结果

用的是Jupyter 来写，每一步可视化比较方便看结果

from numpy import *
import operator

import matplotlib.pyplot as plt 
def   createDataSet():  #创建数据集
    group=array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])
    labels=["服务策略","服务策略","服务策略","平台策略","平台策略","平台策略"]
    return group,labels


if __name__=="__main__":
    group,labels=createDataSet()
    x=[item[0]for item in group[:3]]   #列表推导式 item 是点(x,y)列表,item[0]获取x坐标
    y=[item[1]for item in group[:3]]   #列表推导式是 Python 中一种强大的工具，可以用于快速生成和转换列表，使代码更简洁易读。
    plt.scatter(x,y,s=30,c="b",marker="o")  #创建散点图
    x=[item[0]for item in group[3:6]]
    y=[item[1]for item in group[3:6]]
    plt.scatter(x,y,s=100,c="b",marker="x")
    plt.show()
    a=classify([4,17],group,labels,3)
    print(a)

#knn算法
def classify(in_x,datas,labels,k):
    data_size=datas.shape[0]  #获取数据行数
    diff_mat=tile(in_x,(data_size,1))-datas  #输入x复制，与原数据集相减
    sqrt_diff=diff_mat**2  #计算输入数据与每个数据集中的数据点之间的差值。 这里自动计算x^2 , y^2 相当于已经减了原数据，只不过分步算
    sub_distances=sqrt_diff.sum(axis=1)    #第一维度1是行 第二维度0是列  这是按照行加和
    distances=sub_distances**0.5
    sorted_distances=distances.argsort() #返回的是原数组中元素按升序排列后的索引值数组  np.flipud(np.argsort(arr)) 沿着垂直方向翻转数组得到递减

    class_count={}  #创建空字典，存储每个类别的投票次数
    for i in range(k):
        votel_label=labels[sorted_distances[i]]  #获取第i个邻居的标签
        class_count[votel_label]=class_count.get(votel_label,0)+1 #字典中键 votel_label 对应的值，如果该键不存在，则返回默认值 0。
                           
    sorted_class_count=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True)
    #sort 默认递增 ,加了reverse=True 递减
    #class_count.items() 将字典 class_count 转化为包含键值对的列表。
    #key 按照投票次数排序。
    return sorted_class_count[0][0]  #返回最终分类结果