使用python实现knn分类算法(用鸢尾花数据集)

KNN分类算法(K-Nearest-Neighbors Classification),即K近邻算法,是一个分类效果十分优秀的分类算法。它的核心思想就是,要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是如果一个样本在特征空间中的K个最相似的样本中大多数属于某个类别,则该样本也属于这个类别。

  • 算法流程图

  • 完整代码

 

import numpy as np

import pandas as pd

import operator

 

#获取鸢尾花的数据

def getIris():

#先打开文件再读取能避免路径或文件名出现中文名的错误

f = open('iris.csv')

iris = pd.read_csv(f)

return iris

 

#将鸢尾花的数据分为测试集与训练集

def irisDataClassification(iris):

#得到20个随机数

indexs = np.random.permutation(len(iris))

indexs = indexs[0:20]

# 提取出测试集

testSet = iris.take(indexs)

# 训练集就是总数据集去掉测试集

trainSet = iris.drop(indexs)

sets = [testSet, trainSet]

return sets

 

#K-nn分析

#trainSet训练数据,testSet是测试数据

def knn(trainSet, testSet, trainResults):

#numpy函数shape[0]返回dataSet的行数

totalsSize = trainSet.shape[0]

#将测试数据变成和训练数据一样的矩阵

tests = np.tile(testSet, (totalsSize, 1)) - trainSet

#二维特征相减后平方

sqDiffMat = tests**2

#sum()所有元素相加,sum(0)列相加,sum(1)行相加

sqDistances = sqDiffMat.sum(axis=1)

#返回distances中元素从小到大排序后的索引值

sortedDistIndices = sqDistances .argsort()

#取出第一个元素的类别

voteIlabel = trainResults[sortedDistIndices[1]]

#返回第一个元素的类别

return voteIlabel

 

iris=getIris()

sets = irisDataClassification(iris)

# species是数据集中分类的那一列,这里得到了训练集的数据和训练集的答案

trainSet = sets[1].drop(columns = ['species']).values

trainResults = sets[1]['species'].values

# 测试集

testSets = sets[0].values

# 记录成功的次数

count = 0

for i in testSets:

# 总共4个,花萼的长宽、花瓣的长宽

testSet = [i[0], i[1], i[2], i[3]]

ret = knn(trainSet, testSet, trainResults)

print("predicted : " + repr(i[4]) + ",actual : " + repr(ret))

# 如果返回的答案和测试数据的答案一样,则count+1

if ret == i[4]:

count += 1

successRate = count / len(sets[0]) * 100

print('测试成功率为:\n',successRate,'%')

  • 运行结果

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值