lintcode题目数据链接
题目描述
MNIST是计算机视觉领域的“hello world”数据集。 自1999年发布以来,这种手写图像的经典数据集已经成为基准分类算法的基础。 随着新的机器学习技术的出现,MNIST仍然是研究人员和学习者的可靠资源。
这个题目,您的目标是正确识别数以万计的手写图像数据集中的数字。
每一张图片,图片里面写了一个数字可能是0-9,然后需要设计算法判断出这个数字是0-9中哪一个数字。 我们鼓励您尝试不同的算法,以便第一手掌握哪些方法或者技术可行。
问题解决:
这里要求的是用神经网络解决问题,但是我们作为初学者,使用聚类算法knn来实现比较简单。knn具有以下特点。
1. 分析数据:这一步是至关重要的,我们对于不同的问题得到的数据可能千奇百怪,所以一个优秀的数据处理工程师必须掌握数据预处理的技巧。回到正题,注意下输入格式,
{ 每幅图像的高度为28像素,宽度为28像素,总共为784像素。每个像素都有一个与之相关的像素值,表示该像素的亮度或暗度,数字越高意味着越暗。这个像素值是一个0到255之间的整数。
训练数据集(train.csv)有785列。第一列称为“标签”,是用户绘制的数字。其余列包含关联图像的像素值。
训练集中的每个像素