关于中文识别,效果不错并且开源的应该就是Tesseract-OCR了,在Mac下试用了一下,参考了网络上其他人的一些资源,在这里分享一下。
Quick Start
准备工作
- 下载Tesseract-OCR引擎,到github下查看安装过程,Tesseract-OCR WebSize
- 下载chi_sim.traindata字库,没有这个默认不能识别中文。
- 下载JTessBoxEditor,用来训练字库。
开始识别
进入要识别的目录下,键入命令:
tesseract <picture_file> <output_file_name> -l chi_sim
如果源图是电脑上的生成的,如HTML / PS等在这里效果会不错,但是如果你的源图是拍摄所得,那么效果就不太理想了,因此在这里自己训练字库文件。
训练
将原图转换成tif格式的图片文件,用于后面生成box文件。
tif文件的命名格式 ..exp.tif
eg: fiveplus.normal.exp0.tif
- lang: 语言
- fontname: 字体(normal即可)
- num: 下标
生成b