初识Kaggle：手写体数字识别

最新推荐文章于 2022-04-01 21:02:34 发布

_bigPo

最新推荐文章于 2022-04-01 21:02:34 发布

阅读量5.5k

点赞数 3

分类专栏： kaggle 机器学习文章标签：机器学习 kaggle kNN

本文链接：https://blog.csdn.net/firethelife/article/details/51191530

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

kaggle

2 篇文章 0 订阅

订阅专栏

不得不说刚开始看到kaggle上的数据量还是挺大的，至少对于像我这样的小打小闹的是这样的。在网上看到入门kaggle要先做101的热身赛，就选了这个手写体识别这个赛题。刚好想到了前些天看过的机器学习实战上k近邻一章中有个类似的实例，就想着用kNN试试看。

首先遇到的一个问题是文件的读入，训练集和测试集都是csv格式的文件，这里说下这个test.csv并不能算做是严格意义上的测试集，因为它不含label啊，这个也是到我跑程序的时候才发现的。下面就开始步入正题。

从训练集中读入数据

手写体数字训练样本的存储形式为每个样本为一行其中第一列为label，其它784列为0-255的像素值，值越大越黑，为了计算方便，需要对它进行二值化处理。

import numpy as np 
import pandas as pd 

def loadDataSet(filename):
    datSet = pd.read_csv(filename)
    datMat = np.mat(datSet)

    datLabel = datMat[:,0] #将训练数据集分离第一列为label
    datMat = datMat[:,1:]  #其它列为特征
    m, n = np.shape(datMat)
    # 将特征进行二值化处理
    datMat = np.multiply(datMat != np.zeros((m,n)), np.ones((m,1)))
    return datMat, datLabel #返回mat格式的数据

手写体数字的分类

kNN的想法很简单，看测试样本距离训练集中的样本点哪个近，看最近的那k个样本的类别是什么，将类别数最多的label标记为该测试样本的label。本模块的代码参考了机器学习实战上的相关代码，采用欧氏距离度量两个样本间的距离。

def handWritingClassify(inX, dataSet, labels, k):
    #参数说明，inX是需要分类的样本的特征，dataSet是训练样本的特征矩阵，labels是训练样本对应的label集，
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = np.array(diffMat)**2 # 这个需要转换为array，否则会报错
    sqDistances = sqDiffMat.sum(axis=1) 
    distances = sqDistances**0.5 #得出欧式距离

    sortedDistIndicies = distances.argsort() #按距离从小到大排序，返回对应的索引
    classCount={}          
    for i in range(k): #对最近的k个数据
        voteIlabel = labels[sortedDistIndicies[i]] 
        voteIlabel = np.array(voteIlabel)[0][0] #看它们的label是多少        
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
        #在字典classCount中建立label与对应个数的关系
    sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True) #按个数大小进行排序，个数大的label被排在前边
    #python2 use sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0] #返回个数最多的label

对测试集进行分类

有了分类函数，我们就要试着对整个测试集进行分类，而由于kaggle提供的测试集不含有label，所以需要对读入的数据进行合并操作，因为前面设计的loadDataSet方法会把测试集切分成两部分。在这个模块中我引入了一个用于显示时间的变量，可以提示还有多少时间能处理完成，由于第一次没有写这个功能，让我等的几近崩溃。。

def handwritingClassTest(trainfile, testfile):
    trainMat, trainLabel = loadDataSet(trainfile)
    testMat, testLabel = loadDataSet(testfile) #由于测试集不含有label
    testMat = np.hstack((testLabel, testMat)) #所以对读入的数据进行合并
    mTest = len(testMat)
    pred = []
    for i in range(mTest):
        startTime = time.clock()
        pred.append(handWritingClassify(testMat[i,:], trainMat, trainLabel, 3))
        circleTime = time.clock() - startTime #得到完成一次分类的时间       
        print(" %d tasks left, you need waiting about %.2f hours" %(mTest-1-i, (mTest-1-i)*circleTime/3600)) #打印输出相关信息
    return pred

保存结果为csv文件

kaggle要求提交文件为csv格式，所以想着把测试生成的结果直接存入到一个csv格式的文件中去，其中第一列是ImageId，从1开始，共有28000行，第二列是对应的预测的值。

import csv

def saveCsvfile(listfile):
    csvfile = open('kNN_Digit Recognize.csv', 'w', newline = '')
    #要有参数 newline = '' 否则会出现每一行后空一行的现象。
    writer = csv.writer(csvfile)
    writer.writerow(['ImageId', 'Label']) #标题
    data = []
    for i in enumerate(listfile):
        data.append((i[0]+1,i[1])) #enumerate的序号是从0开始的，所以要加1
    writer.writerows(data)
    csvfile.close()