java使用knn实现mnist_使用KNN对MNIST数据集进行实验

圭多达莱佐

于 2021-02-27 08:12:34 发布

阅读量151

点赞数

文章标签： java使用knn实现mnist

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31574891/article/details/114797516

版权

由于KNN的计算量太大，还没有使用KD-tree进行优化，所以对于60000训练集，10000测试集的数据计算比较慢。这里只是想测试观察一下KNN的效果而已，不调参。

K选择之前看过貌似最好不要超过20，因此，此处选择了K=10，距离为欧式距离。如果需要改进，可以再调整K来选择最好的成绩。

先跑了一遍不经过scale的，也就是直接使用像素灰度值来计算欧式距离进行比较。发现开始基本稳定在95%的正确率上，吓了一跳。因为本来觉得KNN算是没有怎么“学习”的机器学习算法了，猜测它的特点可能会是在任何情况下都可以用，但都表现的不是最好。所以估计在60%～80%都可以接受。没想到能基本稳定在95%上，确定算法和代码没什么问题后，突然觉得是不是这个数据集比较没挑战性。。。

去MNIST官网(http://yann.lecun.com/exdb/mnist/)，上面挂了以该数据集为数据的算法的结果比较。查看了一下KNN，发现有好多，而且错误率基本都在5%以内，甚至能做到1%以内。唔。

跑的结果是，正确率：96.687%。也就是说，错误率error rate为3.31%左右。

再跑一下经过scale的数据，即对灰度数据归一化到[0,1]范围内。看看效果是否有所提升。

经过scale，最终跑的结果是，正确率：竟然也是96.687%!也就是说，对于该数据集下，对KNN的数据是否进行归一化并无效果！

在跑scale之前，个人猜测：由于一般对数据进行处理之前都进行归一化，防止高维诅咒(在784维空间中很容易受到高维诅咒)。因此，预测scale后会比前者要好一些的。但是，现在看来二者结果相同。也就是说，对于K=10的KNN算法中，对MNIST的预测一样的。

对scale前后的正确率相同的猜测：由于在训练集合中有60000个数据点，因此0-9每个分类平均都有6000个数据点，在这样的情况下，对于测试数据集中的数据点，相临近的10个点中大部分都是其他分类而导致分类错误的概率会比较地(毕竟10相对与6000来说很小)，所以，此时，KNN不仅可以取得较好的分类效果，而且对于是否scale并不敏感，效果相同。

代码如下：

#KNN for MNIST

from numpy import *

import operator

def line2Mat(line):

line = line.strip().split(' ')

label = line[0]

mat = []

for pixel in line[1:]:

pixel = pixel.split(':')[1]

mat.append(float(pixel))

return mat, label

#matrix should be type: array. Or classify() will get error.

def file2Mat(fileName):

f = open(fileName)

lines = f.readlines()

matrix = []

labels = []

for line in lines:

mat, label = line2Mat(line)

matrix.append(mat)

labels.append(label)

print 'Read file '+str(fileName) + ' to matrix done!'

return array(matrix), labels

#classify mat with trained data: matrix and labels. With KNN's K set.

def classify(mat, matrix, labels, k):

diffMat = tile(mat, (shape(matrix)[0], 1)) - matrix

#diffMat = array(diffMat)

sqDiffMat = diffMat ** 2

sqDistances = sqDiffMat.sum(axis=1)

distances = sqDistances ** 0.5

sortedDistanceIndex = distances.argsort()

classCount = {}

for i in range(k):

voteLabel = labels[sortedDistanceIndex[i]]

classCount[voteLabel] = classCount.get(voteLabel,0) + 1

sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1),reverse=True)

return sortedClassCount[0][0]

def classifyFiles(trainMatrix, trainLabels, testMatrix, testLabels, K):

rightCnt = 0

for i in range(len(testMatrix)):

if i % 100 == 0:

print 'num '+str(i)+'. ratio: '+ str(float(rightCnt)/(i+1))

label = testLabels[i]

predictLabel = classify(testMatrix[i], trainMatrix, trainLabels, K)

if label == predictLabel:

rightCnt += 1

return float(rightCnt)/len(testMatrix)

trainFile = 'train_60k.txt'

testFile = 'test_10k.txt'

trainMatrix, trainLabels = file2Mat(trainFile)

testMatrix, testLabels = file2Mat(testFile)

K = 10

rightRatio = classifyFiles(trainMatrix, trainLabels, testMatrix, testLabels, K)

print 'classify right ratio:' +str(right)

圭多达莱佐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java使用knn实现mnist_使用KNN对MNIST数据集进行实验

由于KNN的计算量太大，还没有使用KD-tree进行优化，所以对于60000训练集，10000测试集的数据计算比较慢。这里只是想测试观察一下KNN的效果而已，不调参。K选择之前看过貌似最好不要超过20，因此，此处选择了K=10，距离为欧式距离。如果需要改进，可以再调整K来选择最好的成绩。先跑了一遍不经过scale的，也就是直接使用像素灰度值来计算欧式距离进行比较。发现开始基本稳定在95%的正确率上...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。