OCR图像识别技术的JAVA实现
最近有个需求需要用图像识别,学习记录一下。
目前网络上的开源的图像识别技术有很多,例如 OCRE(OCR Easy)、Clara OCR、OCRAD、TESSERACT-OCR 等。
今天本blog将记录下tesseract-ocr的JAVA实现,便于以后查阅使用。
开源 ocr 引擎
我们本次直接以排名第一的 TESSERACT-OCR 作为例子。
TESSERACT-OCR 安装
本次测试的环境为 windows10,所以下载 windows 相关的安装包。
windows 下载地址
安装
安装完毕后,目录下:
直接双击 exe,然后安装。
指定安装特定语言包
这里我们安装一下中文的语言训练包。
【chinese】相关的四个,简体,繁体(分别对应的默认和垂直。)
比较悲催的是全部下载失败。
安装路径
使用默认路径:
C:\Program Files (x86)\Tesseract-OCR
结果
λ ls
ambiguous_words.exe* libcairo-2.dll* libgomp-1.dll* libpangocairo-1.0-0.dll* libwebp-7.dll* tesseract.exe*
classi