下载数据集
https://www.kaggle.com/c/digit-recognizer/data
数据包含三个csv文档。训练集 train.csv、测试集 test.csv、结果提交模版 sample_submission.csv。
数据说明
数据文件train.csv和test.csv包含的手绘位灰度图像,从0到9。每一行代表一个数字,不同的是train.csv中包含标签列,test.csv不包含标签列。
图片的像素大小为 28 x 28 ,每个像素具有与它相关联的单个像素值,表示像素的亮度或暗度,数字越大意味着较暗。这个像素值是0到255(含)之间的整数。也就是说 0 为白色,255 为黑色。
建模过程
二值化
由于训练集的像素值包含了0-255之间不同的值,因此我们需要对每个图片的特征进行二值化。二值化的处理方式是:设置一个阈值,大于该阈值的设置成255,小于该阈值的设置成0。import pandas as pd from sklearn import metrics from sklearn.model_s