OCR(Optical Character Recognition,光学文字识别)是一种将图片上的不可处理的文字信息转成可处理的文字信息的技术。而目前可以实现OCR的底层库并不多,很多第三方的库或软件服务公司都是在使用共同的几个底层OCR库,或者是在这些底层OCR库基础上进行定制。
Tesseract 是一个开源的OCR库,由HP实验室开发由Google维护(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。除了极高的精确度,Tesseract 也具有很高的灵活性,我们可以通过训练识别出任何字体(NOTE:只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。
要使用TesseractOCR库做开发,首先要安装这个程序,我下载的是Windows安装包,直接安装就可以。安装后,需要将Tesseract安装路径添加到系统变量PATH中,然后在命令行窗口CMD中输入tesseract-v确认Tesseract安装完成且已添加到系统变量。
要用Tesseract OCR识别图片中格式规范的文字,需要满足以下条件:
Ø 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体);
Ø 虽然图片被复印或拍照,字体要清晰,没有多余的痕迹或污点;
Ø