Kaggle 项目之 Digit Recognizer

train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度,共 28*28=784 个像素点,每个像素值都在 0~255 之间。

train.csv 包含 785 列,因为第 1 列是手写数字的真实值,后面的 784 列都是像素值。除第一行外,有 42000 条数据。

test.csv 除了不包含 label 列,其它跟 train.csv 一样。除第一行外,有 28000 条数据。

先来看看 train.csv 里的灰度图片是什么样子。

Python 代码:

import os
import pandas as pd
import matplotlib.pyplot as plt

os.chdir("E:\Kaggle\digit-recognizer")
img = pd.read_csv('train.csv')
img = img.values[0:11,1:]

fig = plt.figure() 

for i in range(0,9,1):
    print "\ncurrent num is: %d" % i
    px = img[i,:]
    pix = []
    for j in range(28):
        pix.append([])
        for k in range(28):
            pix[j].append(px[j*28+k])
    ax = fig.add_subplot(330+i+1)
    ax.imshow(pix)
plt.show()
View Code

train.csv 中前 9 个数字如下所示,跟文件中的 label 一样。

KNN 示例代码:

import pandas as pd
import numpy as np
import time
from sklearn.cross_validation import cross_val_score

dataset = pd.read_csv("train.csv")
X_train = dataset.values[0:, 1:]
y_train = dataset.values[0:, 0]

X_test = pd.read_csv("test.csv").values

from sklearn.neighbors import KNeighborsClassifier

knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3)

print("Training start")

start = time.clock()
knn_clf.fit(X_train,y_train)
elapsed = (time.clock() - start)
print("Training Time used:",int(elapsed/60) , "min")

result=knn_clf.predict(X_test)
result = np.c_[range(1,len(result)+1), result.astype(int)]
df_result = pd.DataFrame(result, columns=['ImageId', 'Label'])

df_result.to_csv('./results.knn.csv', index=False)
#end time
elapsed = (time.clock() - start)
print("Test Time used:",int(elapsed/60) , "min")

 

转载于:https://www.cnblogs.com/NaughtyBaby/p/5357392.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值