java中Tesseract-OCR的使用与中文识别增强,减少识别错误率

这是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

git地址为:https://github.com/tesseract-ocr/tesseract

首先创建一个java项目 并集成 tesseract引擎库

集成方式:

1.jar包导入 需要导入以下jar包,集成方式比较繁琐

2.maven库依赖导入 在maven项目中的pom文件中加入以下依赖

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.1.1</version>
    <exclusions>
        <exclusion>
            <groupId>com.sun.jna</groupId>
            <artifactId>jna</artifactId>
        </exclusion>
    </exclusions>
</dependency>

java识别代码

   private static String ocr(String filePath) {
        String result = null;
        try {
            double start = System.currentTimeMillis();
            BufferedImage textImage = ImageIO.read(new File(filePath));
            // 这里对图片黑白处理,增强识别率.这里先通过截图,截取图片中需要识别的部分
            textImage = ImageHelper.convertImageToGrayscale(textImage);
            // 图片锐化
            textImage = ImageHelper.convertImageToBinary(textImage);
            // 图片放大倍数,增强识别率(很多图片本身无法识别,放大5倍时就可以轻易识,但是考滤到客户电脑配置低,针式打印机打印不连贯的问题,这里就放大5倍)
            textImage = ImageHelper.getScaledInstance(textImage, textImage.getWidth() * 1, textImage.getHeight() * 1);

            textImage = ImageHelper.convertImageToBinary(textImage);
            ImageIO.write(textImage, "png", new File("E:\\accccccccccccc\\img_temp.jpg"));

            Tesseract instance = new Tesseract();
            instance.setDatapath(System.getProperty("user.dir") + "\\tessdata");//设置训练库的位置
            instance.setLanguage("chi_simmm");//中文识别
            instance.setLanguage("chi_simm");//中文识别
            instance.setLanguage("chi_sim");//中文识别
//            instance.setLanguage("chi_tra");//中文识别
//            instance.setLanguage("eng");//英文识别
            result = instance.doOCR(textImage);
            double end = System.currentTimeMillis();
            System.out.println("耗时" + (end - start) / 1000 + " s");
        } catch (Exception e) {
            e.printStackTrace();
        }
        return result;
    }

识别的图片为:

这里可以通过动态的对图片做黑白、锐化、放大等操作来提高中文识别率

经过处理后的图片为:

识别结果为:

可以看出经过训练后的库识别经过处理的图片的精度还是比较不错的,但是识别比较复杂场景的文字识别率还是有待提升;

库文件需要自己识别训练生成训练库来提高识别率,不过目前网上的训练方法比较繁琐,后续文章会说明训练方法;

*中文训练库文件以及demo文件下载地址https://download.csdn.net/download/intenttao/10812148

*tesseract本地化引入jar文件下载地址https://download.csdn.net/download/intenttao/10812225

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值