KNN算法简介
KNN算法又称K近邻(knn,k-NearestNeighbor)分类算法,K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN通过测量不同特征值之间的距离进行分类。
KNN算法思路
取样本在特征空间中的k个最近的邻居,判断它们的分类情况,KNN算法将样本预测为k个最近邻居中大多数的分类情况。
KNN算法实战
数据集
使用mnist特征提取后的数据集,对于每一个mnist图像,通过CNN网络提取出1024个特征,每个图像的1024个特征保存在一行,每行最后一个数字是图像的标签,即数字[0,9]。我总共准备了1000个数据集。
数据集可从此下载,提取码: ttnr
https://pan.baidu.com/s/1Xei_yIK1BOY0cuFC4Lp0MA
具体代码
import csv
import random
import math
import operator
# 训练集
trainingSet = []
# 测试集
testSet = []
def loadDataset(filename):
with open(filename, 'r') as file: # 打开文件,文件句柄为file
lines = csv.reader(file) # 将每行数据当做列表返回
dataset = list(lines)
# trainSetnum = ((len(dataset) - 1) * 2) / 3;
# print(len(dataset))
for x in range(len(dataset) - 1): # 遍历读取的每一行列表
for y in range(1024):
dataset[x][y] = float(dataset[x][y]) #因为一开始读取出来是str类型的,所以要将其转化为float类型
if random.random() < 0.7: # 随机赋值给训练集和测试集
trainingSet.append(dataset[x]) # x表示的是行数
else:
testSet.append(dataset[x])
def euclideanDistance(instance1, instance2, length): # 扩展到多维的欧式距离,根号(x1^2+...xi^2)
distance = 0
for x in range(length):
distance += pow((instance1[x] - instance2[x]), 2)
return math.sqrt(distance)
def getNeighbors(k, testInstance): # 计算训练集中每一项与该实例的欧氏距离,取最近的k个
distances = []
length = len(testInstance) - 1; # 这个是条目的维数,之所以要减1是因为最后一位是标签
for x in range(len(trainingSet)): # 遍历所有的训练集
dist = euclideanDistance(testInstance, trainingSet[x], length) # 计算每一个条目与当前条目的欧氏距离
distances.append((trainingSet[x], dist)) # 把那个对应的条目和欧式距离压入数组
distances.sort(key=operator.itemgetter(
1)) # operator模块提供的itemgetter函数用于获取对象的哪些维的数据,opearator.itemgetter是定义了一个函数,这里是以条目的第二个域来进行排序
neighbors = []
for x in range(k): #取欧拉距离最近的k个训练集
neighbors.append(distances[x][0])
return neighbors
def getResponse(neighbors): # 统计类别次数,然后返回次数最多的类别作为最终的结果
classVotes = {}
for x in range(len(neighbors)):
response = neighbors[x][-1] # 取每个邻居的最后一维,即标签
# print(response,end=" ")
if response in classVotes: # 如果标间存在classVotes列表中,则对应条目加1,否则新建条目
classVotes[response] += 1
else:
classVotes[response] = 1
sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True) # 按照classVotes的第二个域来排序,classVotes的结构是一个个键值对构成的列表,比如“5”:1,表示邻近k个元素中标签为5的元素有1个
# print(classVotes)
return sortedVotes[0][0]
def getAccuracy(predictions): # 验证精确度,将测试级中预测的类别和测试集中正确的类别对比,得出精确百分比
correct = 0
for x in range(len(testSet)):
if testSet[x][-1] == predictions[x]:
correct += 1
return (correct / float(len(testSet))) * 100.0
def main():
loadDataset(r'data.txt')
print('Train set:' + repr(len(trainingSet)))
print('Test Set:' + repr(len(testSet)))
predictions = []
k = 3
for x in range(len(testSet)):
neighbors = getNeighbors(k, testSet[x])#首先获得距测试集第x个元素距离前k的邻居
result = getResponse(neighbors) #返回预测的结果
predictions.append(result)
print('>predicted=' + repr(result) + ',actual=' + repr(testSet[x][-1]))#输出预测的结果和真实的结果
accuracy = getAccuracy(predictions)
print('Accuracy:' + repr(accuracy) + '%')
if __name__ == '__main__':
main()
运行结果
取了两次测试的结果,可以看到当数据集够大的时候效果还是不错的,之前只有100个数据集的时候,准确率只有百分60左右,代码原理基本都有注释,如还有不懂可以看下我参考的那篇博客,也可以私信我一起讨论。
总结
KNN算法应该是最简单的一类分类算法了,个人觉得当做分类算法的入门学习还是很不错的,如有问题,请指正。