Tesseract OCR+Tess4j实现图片中英文识别

最新推荐文章于 2024-07-24 15:36:57 发布

jamesluozhiwei

最新推荐文章于 2024-07-24 15:36:57 发布

阅读量6.5k

点赞数 5

分类专栏： Java ai 文章标签： tesseract tess4j ocr java

本文链接：https://blog.csdn.net/qq_38403662/article/details/96833222

版权

本文介绍了如何利用Tesseract OCR引擎和Tess4j库进行图片中的英文和中文识别。Tesseract最初由HP实验室研发，后来被Google改进并开源。通过环境搭建、下载语言库以及在Java项目中引入Tess4j依赖，可以实现对图像的文本转换。为了提高识别准确性，建议使用高分辨率图像，并可针对特定区域进行识别。

摘要由CSDN通过智能技术生成

Tesseract

简介

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生。在2005年，Tesseract由美国内华达州信息技术研究所获得，并委托Google对其进行改进、优化工作。

Tesseract目前已作为开源项目发布在Google Project，它与Leptonica图片处理库结合，可以读取各种格式的图像并将它们转化成超过60种语言的文本，我们还可以不断训练自己的库，使图像转换文本的能力不断增强。如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

环境搭建

这里只介绍 Homebrew

brew install tesseract

其他系统请见官方安装文档

下载语言库

根据自己的需求可以到这里选择所需要的语言库，如我们选择的简体中文库是: chi_sim.traineddata，将下载好的文件拷贝到: /usr/local/Cellar/tesseract/4.0.0_1(tesseract版本号)/share/tessdata目录下。

tess4j

依赖

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.4.0</version>
</dependency>

demo

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;

import java.io.File;

public class Test {
   

    @org.junit.Test