项目代码Github传送门:https://github.com/JosephPai/KaggleSolution/tree/master/DigitRec 欢迎star~感恩
英文版本Notebook:https://www.kaggle.com/archaeocharlie/a-beginner-s-approach-to-classification
数据集来源:https://www.kaggle.com/c/digit-recognizer/data
该问题来源于Kaggle,没有接触过Kaggle的同学可以先下载数据集,然后跟随本教程进行实战演练,之后可以继续挖掘Kaggle的更具有挑战性的问题。
本人Github和博客也会不定期同步更新机器学习相关问题的Solution
简介
首先说明,这不是数字图像分类问题的最好方法! 这个教程主要作用是为了指引那些从来没有过实战经验的机器学习新手。 我自己作为一个机器学习的初学者,我觉得这应该会很有帮助的。 任何改进建议也都通通接受!
import pandas as pd
import matplotlib.pyplot as plt, matplotlib.image as mpimg
from sklearn.model_selection import train_test_split
from sklearn import svm
%matplotlib inline
载入数据
- 我们使用 pandas 的 read_csv 函数将训练数据 train.csv 读入 这个包的 dataframe。
- 然后我们将训练图像和相应的label分割开,为我们的监督学习算法做准备。
- 我们使用train_test_split 方法将数据集分为两部分,一部分作为训练集,一部分作为测试样例用来验证