补充:由于很多同学找我要原数据集和代码,所以我上传到了资源里,https://download..net/download/zugexiaodui/10913834
初学机器学习,第一步是做一个简单的手写数字识别,我选用的是MNIST数据集(用其他数据集也可以,原理都差不多),算法是KNN(下载库直接调用函数,算法的具体实现没有过多关心)。在网上也看到过MNIST数据集的Python代码,但是感觉有些复杂,作为初学者见到那么多代码就头大……这里分享一下我的代码,虽然并不完善,但是可以为其他初学者提供一点简单的思路吧。
首先明确一下我的思路:解析图片和标签——处理图片和标签——加载KNN分类器训练——读入处理后的测试图片和标签——得出正确率。
我写了两个程序,第一个用来解析并保存图片,第二个对图片进行处理、解析标签、训练、预测、得出结果。
准备工作:
0.安装Python:最好默认安装位置,安装的时候勾上Add Path......,下一步还有个为所有Users安装,也勾上。win7以上如果默认安装到C盘某个目录下,需要更改一下文件夹的权限,在python文件夹上点击右键>>属性>>安全>>编辑,把Users和ALL APPLICATION PACKAGES的权限的“完全控制”都打上勾,确定。
1.Python做数字手写识别需要用到的库:numpy,scipy,scikit_learn,也可以再加上openCV,因为我把图片都解析出来保存下来了。点击这里可以寻找并下载这些库(.whl文件),注意要对应自己的python版本。下载后放在python安装目录的Scripts下,按着shift点鼠标右键,点击”在此处打开命令窗口”,输入pip install ****** ,这里******代表要安装的文件名,注意不要更改那些文件名,直接把文件名带着后缀.whl复制粘贴在命令行里就行,粘贴的时候不可以使用ctrl+v,直接鼠标右键粘贴就行。要先安装numpy和scipy,再安装scikit_learn和openCV。安装成功会有提示的,失败的话……当然也会有提示,如果有错误就百度一下。如果你安装的是python3.5或者3.6的话,联网的情况下不用下载.whl文件直接输入pip install **