javaOCR识别文字
图片转文字,两种方式实现,一种是使用Tesseract,但是对中文识别支持不是很好,需要自己训练模型。如何训练请自行百度。
另一种是使用百度OCR识别API,需要自己注册获取OCR的key等相关信息,百度有教程。
首先上图
网上下载解压版Tesseract,目录结构如下
项目结构如下
需要下载百度api,java-sdk-4.1.0,百度官网可下
部分代码如下:
通过cmd运行Tesseract识别图片文字
public String recognizeText(File imageFile, String imageFormat) throws Exception {
// 获取ocr核心包路径
tessPath = getOCRExePath();