Java 实现OCR 识别图像文字(手写中文)----tess4j

 

最近有个需要,小程序端手写中文之后生成图像,后端需识别图片上中文..;刚开始想到第三方收费api试试,先用了百度AI开放平台的通用字体识别的API,后来又找到了Tessearct-OCR,参考了几篇文摘整合了一下

准备:

1.下载Tessearct-COR 3.0以上版本:https://download.csdn.net/download/qq_26161693/10646074

2. 在安装时选择chi_sim.traineddata 语言库;之后在程序中需加载安装目录tessdata下的中文包(chi_sim.traineddata );

maven依赖:

        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>3.2.1</version>
        </dependency>

 

Demo:

    /**
     * 
     * @param srImage 图片路径
     * @param ZH_CN 是否使用中文训练库,true-是
     * @return 识别结果
     */
    public static String discernWord(String imagePath) {
        try {
            File image = new File(imagePath);
            BufferedImage textImage = ImageIO.read(image);
            Tesseract instance = Tesseract.getInstance();
            instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");// 设置语言库
            instance.setLanguage("chi_sim");// 中文识别
            String words = null;
            words = instance.doOCR(textImage);
            return words;
        }
        catch (Exception e) {
            e.printStackTrace();
        }
    }

Test:

 public static void main(String[] args) throws Exception {
        String words = discernWord("F:/test_used_url/ocr/originalPic/hotkidclub.jpg", true);//需识别的图文件路径
        System.out.println(words);
    }

ps:

在window开发环境下先安装了tesseract亲测可行,不过没试过不安装exe只加载语言包的情;况

随后在部署到Linux环境下运行会有种种的坑

解决:1)linux安装Tesseract-OCR之后,将.so相关文件复制到/usr/lib目录

         2)在项目的根目录(maven的话就是resources)下添加:linux-86-64文件夹

         3)配置Linux的语言环境变量

         4)若访问量大的情况tomcat也容易崩掉,需设置好线程数或并发量;

 

详情参考:http://www.cnblogs.com/zlAurora/p/9266039.html;

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页