使用python实现knn分类算法(用鸢尾花数据集)

最新推荐文章于 2023-01-11 11:26:46 发布

XUST_Alon

最新推荐文章于 2023-01-11 11:26:46 发布

阅读量1.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40994908/article/details/102559355

版权

KNN分类算法（K-Nearest-Neighbors Classification），即K近邻算法，是一个分类效果十分优秀的分类算法。它的核心思想就是，要确定测试样本属于哪一类，就寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后看这K个样本大部分属于哪一类，那么就认为这个测试样本也属于哪一类。简单的说就是如果一个样本在特征空间中的K个最相似的样本中大多数属于某个类别，则该样本也属于这个类别。

算法流程图

完整代码

import numpy as np

import pandas as pd

import operator

#获取鸢尾花的数据

def getIris():

#先打开文件再读取能避免路径或文件名出现中文名的错误

f = open('iris.csv')

iris = pd.read_csv(f)

return iris

#将鸢尾花的数据分为测试集与训练集

def irisDataClassification(iris):

#得到20个随机数

indexs = np.random.permutation(len(iris))

indexs = indexs[0:20]

# 提取出测试集

testSet = iris.take(indexs)

# 训练集就是总数据集去掉测试集

trainSet = iris.drop(indexs)

sets = [testSet, trainSet]

return sets

#K-nn分析

#trainSet训练数据，testSet是测试数据

def knn(trainSet, testSet, trainResults):

#numpy函数shape[0]返回dataSet的行数

totalsSize = trainSet.shape[0]

#将测试数据变成和训练数据一样的矩阵

tests = np.tile(testSet, (totalsSize, 1)) - trainSet

#二维特征相减后平方

sqDiffMat = tests**2

#sum()所有元素相加，sum(0)列相加，sum(1)行相加

sqDistances = sqDiffMat.sum(axis=1)

#返回distances中元素从小到大排序后的索引值

sortedDistIndices = sqDistances .argsort()

#取出第一个元素的类别

voteIlabel = trainResults[sortedDistIndices[1]]

#返回第一个元素的类别

return voteIlabel

iris=getIris()

sets = irisDataClassification(iris)

# species是数据集中分类的那一列，这里得到了训练集的数据和训练集的答案

trainSet = sets[1].drop(columns = ['species']).values

trainResults = sets[1]['species'].values

# 测试集

testSets = sets[0].values

# 记录成功的次数

count = 0

for i in testSets:

# 总共4个，花萼的长宽、花瓣的长宽

testSet = [i[0], i[1], i[2], i[3]]

ret = knn(trainSet, testSet, trainResults)

print("predicted : " + repr(i[4]) + ",actual : " + repr(ret))

# 如果返回的答案和测试数据的答案一样，则count+1

if ret == i[4]:

count += 1

successRate = count / len(sets[0]) * 100

print('测试成功率为：\n',successRate,'%')

运行结果

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。