一、需要用到Tesseract-OCR所以先下载,并安装
二、配置环境变量,在系统环境变量中,Path添加C:\Program Files (x86)\Tesseract-OCR;新建变量TESSDATA_PREFIX,变量值为C:\Program Files (x86)\Tesseract-OCR\tessdata
三、开始识别
(1)例如C:\Users\dell\Desktop\test\test.jpg的图片
(2)测试识别效果
识别图片命令
tesseract 图片名称 生成的结果文件的名称 字库
cmd命令行进入图片所在文件夹位置,输入命令(其中chi_sim是中文的字库),result是在当前文件夹下生产一个result.txt文件并写入识别的内容
tesseract test.jpg result -l chi_sim
(3)打开result.txt文件,识别的不是很准确,可以对字库进行训练
四、训练字库
(1)需要下载jTessBoxEditor工具,jTessBoxEditor是java写的,所以需要安装jdk
(2)修改图片名字,不能随意命名,有固定的格式,这里我把图片名字改成cs.roy.ex