借鉴网站:http://www.cnblogs.com/cnlian/p/5765871.html
首先,安装Tesseract_OCR ,jTessBoxEditor 和 numpy
(numpy 在我的win10 python3.6下安装后import 失败DLL load fail,找了半天错误,最后去下了个32位的whl后正常运行,http://www.lfd.uci.edu/~gohlke/pythonlibs/)
大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中
下载jTessBoxEditor,地址https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/;解压后得到jTessBoxEditor,由于这是由Java开发的,所以我们应该确保在运行jTessBoxEditor前先安装JRE(Jav