KNN分类算法(K-Nearest-Neighbors Classification),即K近邻算法,是一个分类效果十分优秀的分类算法。它的核心思想就是,要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是如果一个样本在特征空间中的K个最相似的样本中大多数属于某个类别,则该样本也属于这个类别。
- 算法流程图
- 完整代码
import numpy as np
import pandas as pd
import operator
#获取鸢尾花的数据
def getIris():
#先打开文件再读取能避免路径或文件名出现中文名的错误
f = open('iris.csv')
iris = pd.read_csv(f)
return iris
#将鸢尾花的数据分为测试集与训练集
def irisDataClassification(iris):
#得到20个随机数
indexs = np.random.permutation(len(iris))
indexs = indexs[0:20]
# 提取出测试集
testSet = iris.take(indexs)
# 训练集就是总数据集去掉测试集
trainSet = iris.drop(indexs)
sets = [testSet, trainSet]
return sets
#K-nn分析
#trainSet训练数据,testSet是测试数据
def knn(trainSet, testSet, trainResults):
#numpy函数shape[0]返回dataSet的行数
totalsSize = trainSet.shape[0]
#将测试数据变成和训练数据一样的矩阵
tests = np.tile(testSet, (totalsSize, 1)) - trainSet
#二维特征相减后平方
sqDiffMat = tests**2
#sum()所有元素相加,sum(0)列相加,sum(1)行相加
sqDistances = sqDiffMat.sum(axis=1)
#返回distances中元素从小到大排序后的索引值
sortedDistIndices = sqDistances .argsort()
#取出第一个元素的类别
voteIlabel = trainResults[sortedDistIndices[1]]
#返回第一个元素的类别
return voteIlabel
iris=getIris()
sets = irisDataClassification(iris)
# species是数据集中分类的那一列,这里得到了训练集的数据和训练集的答案
trainSet = sets[1].drop(columns = ['species']).values
trainResults = sets[1]['species'].values
# 测试集
testSets = sets[0].values
# 记录成功的次数
count = 0
for i in testSets:
# 总共4个,花萼的长宽、花瓣的长宽
testSet = [i[0], i[1], i[2], i[3]]
ret = knn(trainSet, testSet, trainResults)
print("predicted : " + repr(i[4]) + ",actual : " + repr(ret))
# 如果返回的答案和测试数据的答案一样,则count+1
if ret == i[4]:
count += 1
successRate = count / len(sets[0]) * 100
print('测试成功率为:\n',successRate,'%')
- 运行结果