初识Kaggle:手写体数字识别

手写体识别:kNN算法实操及性能分析
本文介绍了如何使用kNN算法解决手写体识别问题,包括数据预处理、分类函数实现、测试集分类以及成绩评估。讨论了kNN算法的优缺点,并分享了实际运行时间和最终得分。

不得不说刚开始看到kaggle上的数据量还是挺大的,至少对于像我这样的小打小闹的是这样的。在网上看到入门kaggle要先做101的热身赛,就选了这个手写体识别这个赛题。刚好想到了前些天看过的机器学习实战上k近邻一章中有个类似的实例,就想着用kNN试试看。

首先遇到的一个问题是文件的读入,训练集和测试集都是csv格式的文件,这里说下这个test.csv并不能算做是严格意义上的测试集,因为它不含label啊,这个也是到我跑程序的时候才发现的。下面就开始步入正题。

从训练集中读入数据

手写体数字训练样本的存储形式为每个样本为一行其中第一列为label,其它784列为0-255的像素值,值越大越黑,为了计算方便,需要对它进行二值化处理。

import numpy as np 
import pandas as pd 

def loadDataSet(filename):
    datSet = pd.read_csv(filename)
    datMat = np.mat(datSet)

    datLabel = datMat[:,0] #将训练数据集分离第一列为label
    datMat = datMat[:,1:]  #其它列为特征
    m, n = np.shape(datMat)
    # 将特征进行二值化处理
    datMat = np.multiply(datMat != np.zeros((m,n)), np.ones((m,1)))
    return datMat, datLabel #返回mat格式的数据

手写体数字的分类

kNN的想法很简单,看测试样本距离训练集中的样本点哪个近,看最近的那k个样本的类别是什么,将类别数最多的label标记为该测试样本的label。本模块的代码参考了机器学习实战上的相关代码,采用欧氏距离度量两个样本间的距离。

def handWritingClassify(inX, dataSet, labels, k):
    #参数说明,inX是需要分类的样本的特征,dataSet是训练样本的特征矩阵,labels是训练样本对应的label集,
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = np.array(diffMat)**2 # 这个需要转换为array,否则会报错
    sqDistances = sqDiffMat.sum(axis=1) 
    distances = sqDistances**0.5 #得出欧式距离

    sortedDistIndicies = distances.argsort() #按距离从小到大排序,返回对应的索引
    classCount={}          
    for i in range(k): #对最近的k个数据
        voteIlabel = labels[sortedDistIndicies[i]] 
        voteIlabel = np.array(voteIlabel)[0][0] #看它们的label是多少        
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
        #在字典classCount中建立label与对应个数的关系
    sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True) #按个数大小进行排序,个数大的label被排在前边
    #python2 use sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0] #返回个数最多的label

对测试集进行分类

有了分类函数,我们就要试着对整个测试集进行分类,而由于kaggle提供的测试集不含有label,所以需要对读入的数据进行合并操作,因为前面设计的loadDataSet方法会把测试集切分成两部分。在这个模块中我引入了一个用于显示时间的变量,可以提示还有多少时间能处理完成,由于第一次没有写这个功能,让我等的几近崩溃。。

def handwritingClassTest(trainfile, testfile):
    trainMat, trainLabel = loadDataSet(trainfile)
    testMat, testLabel = loadDataSet(testfile) #由于测试集不含有label
    testMat = np.hstack((testLabel, testMat)) #所以对读入的数据进行合并
    mTest = len(testMat)
    pred = []
    for i in range(mTest):
        startTime = time.clock()
        pred.append(handWritingClassify(testMat[i,:], trainMat, trainLabel, 3))
        circleTime = time.clock() - startTime #得到完成一次分类的时间       
        print(" %d tasks left, you need waiting about %.2f hours" %(mTest-1-i, (mTest-1-i)*circleTime/3600)) #打印输出相关信息
    return pred

保存结果为csv文件

kaggle要求提交文件为csv格式,所以想着把测试生成的结果直接存入到一个csv格式的文件中去,其中第一列是ImageId,从1开始,共有28000行,第二列是对应的预测的值。

import csv

def saveCsvfile(listfile):
    csvfile = open('kNN_Digit Recognize.csv', 'w', newline = '')
    #要有参数 newline = '' 否则会出现每一行后空一行的现象。
    writer = csv.writer(csvfile)
    writer.writerow(['ImageId', 'Label']) #标题
    data = []
    for i in enumerate(listfile):
        data.append((i[0]+1,i[1])) #enumerate的序号是从0开始的,所以要加1
    writer.writerows(data)
    csvfile.close()

小结

处理完整个数据集耗费了大概三个半小时的时间,实在是令人无语啊,其中这也是kNN的一个缺点,每次都要计算测试样本与所有训练样本的距离,计算量实在太大,我看kaggle上几乎很少有人使用kNN。最后说下我的成绩是0.963,这个成绩只能算是中等偏下的水平,好多人竟然拿到了1.0 太神奇了。

### 加载和使用MNIST手写体数字数据集 为了在MATLAB中加载并使用MNIST手写体数字数据集进行图像识别机器学习项目,可以通过以下几种方式进行操作。 #### 下载MNIST数据集 首先需要下载MNIST数据集。可以从官方站点或其他可信资源获取该数据集。如果希望直接在MATLAB环境中简化这一过程,则可以利用第三方工具包或者编写脚本来自动完成下载任务[^1]。 ```matlab % 自动下载 MNIST 数据集到当前文件夹 (假设存在相应的函数实现) downloadMnistData('mnist.mat'); ``` #### 使用内置支持包 MATLAB提供了专门的支持包用于处理各种常见的机器学习任务,其中包括对MNIST数据集的支持。安装Deep Learning Toolbox™后,可以直接调用`imageDatastore`和其他相关功能来读取MNIST数据集中的图像文件[^2]。 ```matlab imdsTrain = imageDatastore(fullfile(dataFolder,'train'), ... 'IncludeSubfolders',true,... 'LabelSource','foldernames'); imdsTest = imageDatastore(fullfile(dataFolder,'test'),... 'IncludeSubfolders',true,... 'LabelSource','foldernames'); ``` #### 手动导入二进制格式的数据 当MNIST数据是以原始的二进制形式(.gz压缩)存储时,可能还需要额外步骤解压这些文件,并将其转换成适合进一步分析的形式。此时可借助于自定义代码片段来进行必要的预处理工作: ```matlab function [images, labels] = load_mnist_images(filename) fid = fopen(filename); if fid == -1 error(['Could not open file ', filename]); end magicNumber = fread(fid, 1, 'int32', 0, 'b'); % Read magic number numImages = fread(fid, 1, 'int32', 0, 'b'); % Number of images rows = fread(fid, 1, 'int32', 0, 'b'); % Rows per image cols = fread(fid, 1, 'int32', 0, 'b'); % Columns per image sizeOfImage = rows * cols; images = zeros([sizeOfImage numImages], 'uint8'); labels = []; for i = 1:numImages imgVector = fread(fid, sizeOfImage, 'unsigned char')'; images(:,i) = double(imgVector)/255; % Normalize pixel values to range [0,1] if exist('labelFile', 'var') labelValue = fread(labelFid, 1, 'unsigned char'); labels(i) = labelValue; end end fclose(fid); if ~isempty(labels) fclose(labelFid); end end ``` 上述代码展示了如何手动解析MNIST图像及其对应的标签信息。注意这里还包含了归一化像素值的操作以便后续更高效地训练模型。 #### 构建卷积神经网络(CNN) 一旦成功加载了MNIST数据集之后,就可以着手构建一个简单的CNN架构来进行分类任务。考虑到MATLAB自带了一些高级API使得创建此类结构变得相对简单,下面给出了一种典型的设计思路: ```matlab layers = [ imageInputLayer([28 28 1]) convolution2dLayer(3, 32, 'Padding', 'same') batchNormalizationLayer reluLayer maxPooling2dLayer(2, 'Stride', 2) fullyConnectedLayer(10) softmaxLayer classificationLayer]; options = trainingOptions('adam',... 'InitialLearnRate', 0.001,... 'MaxEpochs', 20,... 'MiniBatchSize', 128,... 'Shuffle', 'every-epoch',... 'ValidationFrequency', 30,... 'Verbose', false,... 'Plots', 'training-progress'); net = trainNetwork(imdsTrain, layers, options); ``` 这段代码实现了从输入层至输出层完整的前馈传播路径设置,并指定了Adam优化器以及一些超参数配置选项以指导整个训练流程。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值