kaggle竞赛-手写数字分类技术
|
姓名 | 学号 |
---|---|
于 朋 | 20185109052 |
班飞虎 | 20185109035 |
数据来源:
手写数字分类引用的是MNIST的样本库,train.csv是一个42000*785的数据集,有42000个样本,第一列是label,后面784是灰度值。 train.csv是测试集,28000个样本。
算法实现过程:
本次手写识别技术的实现模型相对比较简单,但是引用的数据集比较庞大,即便是那么一个简单的模型用到数据较大时也会发现很多的遗漏之处,很多的隐藏的bug慢慢调试了好几天才解决,在过程中我们也总结了一些经验,在数据较大时可以自己先构造一些数据进行测试,否则直接在数据集上应用算法,非常或者根本无法从数据中测试算法。我们也看了很多人写的k-NN,大部分都是<<机器学习实战>>上的代码,在学习借鉴的基础上完成了自己的代码, 识别数字准确率为97.60%,效果还是不错的。
算法完成目标:
手写数字分类包括数字的获取、数字的预处理、特征的提取、特征库的训练、数字识别分类等5个步骤。我们的目的是提高手写数字识别的速度和准确度。