（1）kNN算法

努力努力再努力YY

于 2021-06-02 21:31:11 发布

阅读量153

点赞数

分类专栏：机器学习文章标签： python 机器学习 kNN

本文链接：https://blog.csdn.net/qq_43637727/article/details/117480818

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

kNN算法：存在一个样本数据集合，样本集中的每一个数据都存在标签，现在给定一个新的数据，如何判断它属于哪一类？kNN所使用的方法是：选择与新数据最接近的k个样本数据，这k个样本数据所属的分类（虚着呢出现次数最多的分类）就是新样本所属的分类。
新建一个python文件，kNN.py ，内容如下：

from numpy import *
import operator 
#创建数据集和标签
def createDataSet():
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels=['A','A','B','B']
    return group,labels
#classify0函数有4个参数，第一个inX是用于分类的输入向量，输入的训练样本集是dataSet，
#标签向量为labels，k表示用于选择最近邻居的数目。
def classify0(inX,dataSet,labels,k):
#shape[0]表示矩阵的行数
#函数格式tile(A,reps)表示A重复reps次
    dataSetSize=dataSet.shape[0]
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
 #将矩阵的每一行向量相加
    sqDistances=sqDiffMat.sum(axis=1)
    distances=sqDistances**0.5
 #将元素从小到大排序，提取其索引值
    sortedDistIndicies=distances.argsort()
    classCount={ }
    for i in range(k):
        voteIlabel=labels[sortedDistIndicies[i]]
 #更新，将其分类数加1
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        sortedClassCount=sorted(classCount.items( ),key=operator.itemgetter(1),reverse=True)
        return sortedClassCount[0][0]

在该文件所在目录下进入python交互式开发环境输入以下命令：

#首先导入kNN模块
import kNN
#创建变量group 和labels
group,labels=kNN.createDataSet()
#验证是否正确定义了变量
group
labels
#这里的四组数据，每一组数据有两个属性或者特征值，向量labels包含了每个数据点的
#标签信息
#对未知类别的数据集中的每个点执行以下操作
#（1）计算一直类别数据集中的点到当前点之间的距离
#（2）按照距离递增次序排序
#（3）选取与当前点距离最小的k个点
#（4）确定前k个点所在类别的出现频率
#（5）返回前k个点出现频率最高的类别作为当前点的预测分类
#调用calssify0函数，在python提示符下输入
kNN.classify0([0,0].group,labels,3)
#