Python实现KNN算法

最新推荐文章于 2023-05-31 14:26:47 发布

傅晓玲

最新推荐文章于 2023-05-31 14:26:47 发布

阅读量352

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_21466587/article/details/51253666

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

from numpy import *

import operator

def creatDataset():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
lables = ['A','A','B','B']
return group,lables


def classify0(inX,dataSet,lables,k):

#array的shape函数返回指定维度的大小，如dataset为n*m的矩阵，则dataset.shape[0]返回n,dataset.shape[1]返回m,dataset.shape返回n,m

dataSetSize = dataSet.shape[0]

#tile函数简单的理解，它的功能是重复某个数组。比如tile(A,n)，功能是将数组A重复n次，构成一个新的数组
#所以此处tile(inX,(dataSetSize,1))的作用是将inX重复复制dataSetSize次，以便与训练样本集的样本个数一致
#减去dataSet就是求出其差值，所以diffMat为一个差值矩阵

diffMat = tile(inX,(dataSetSize,1))- dataSet

#以下三行代码执行的是欧式距离的计算

sqDiffMat = diffMat**2

#平时用的sum应该是默认的axis=0,就是普通的相加,而当加入axis=1以后就是将一个矩阵的每一行向量相加,axis用于控制是行相加还是列相加

sqDistances = sqDiffMat.sum(axis=1)
distance = sqDistances**0.5

#相关性的排序

#argsort函数返回的是数组值从小到大的索引值

sortedDistance = distance.argsort()

#<span style="text-indent: 28px;">确定前K个点所在类别出现的频率</span>

classCount= {}

for i in range(k):
voteLable = lables[sortedDistance[i]]

#dict.get(key, default=None)key 为字典中要查找的键，default如果指定键的值不存在时，返回该默认值值。此句代码用于统计标签出现的次数

classCount[voteLable] = classCount.get(voteLable,0)+1

#sorted函数参数解释，sorted(iterable, cmp=None, key=None, reverse=False)
#iterable：是可迭代类型;
#cmp：用于比较的函数，比较什么由key决定;
#key：用列表元素的某个属性或函数进行作为关键字，有默认值，迭代集合中的一项;
#reverse：排序规则. reverse = True 降序或者 reverse = False 升序，有默认值。
#返回值：是一个经过排序的可迭代类型，与iterable一样。
######
#operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号）

######

sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)

#返回最符合的标签
return sortedClassCount[0][0]

group,lables=creatDataset()

print classify0([0,0],group,lables,3) #测试[0,0]所属类别

傅晓玲

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python实现KNN算法

from numpy import * import operator def creatDataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) lables = ['A','A','B','B'] return group,lables
复制链接

扫一扫

专栏目录