kaggle数字识别题目
介绍和数据地址:https://www.kaggle.com/c/digit-recognizer
解法:python.sklearn的随机森林方法
不只
# -*- coding: utf-8 -*-
"""
Created on Wed Nov 25 20:39:46 2015
@author: Ning LI
"""
import numpy as np;
import pandas as pd;
import sklearn as sk;
from sklearn.ensemble import RandomForestClassifier as rf_clf
from sklearn import metrics
#数据准备
df_train=pd.read_csv('train.csv')
df_test=pd.read_csv('test.csv')
X_train=df_train.iloc[:,1:]
y_train=df_train.iloc[:,0]
X_test=df_test.iloc[:]
#使用随机森林进行数据训练
clf_initial=rf_clf(n_estimators=33)
#使用KFold进行交叉验证,也就是将X_train训练集均分5份,其中4份用于交叉验证的训练,另外一份用于交叉验证。
clf_validated=KFold_cv(X_train.values, y_train.values, clf_initial)
#交叉验证完毕后,如果正确率不错,将模型用于X_test测试集的预测
y_pred=clf_validated.predict(X_test)
#预测完数据后,将数据按照提交