java 图像识别OCR(一) tess4j

前段时间公司上面突然下来个需求,根据用户提供的身份证和营业执照图片,获取图片中的信息(就是姓名、身份证号、公司名称啥的),然后存入数据库。然后给的时间是两周,当时我就懵逼了,还好后面补了句尽量用免费的API。
虽然我内心是想直接用付费的,付费的肯定用着简单又舒服。但免费的也还是得先研究一下,在网上搜索了一圈,基本上只有tess4j这一个了。
直接上代码看效果了,老实说看了这么多资料对于tess4j我了解的还是不多。。。

pom依赖

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.2</version>
</dependency>

main

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;

public class test {
    public static void main(String[] args) {
        // 识别图片的路径(修改为自己的图片路径)
//        String path = "C:\\Users\\Tang\\Desktop\\图片\\营业执照4.jpg";
        String path = "C:\\Users\\Tang\\Desktop\\图片\\身份证3.jpg";
//        String path = "C:\\Users\\Tang\\Desktop\\图片\\其他图片2.png";

        // 语言库位置(修改为跟自己语言库文件夹的路径)
        String lagnguagePath = "D:\\tessdata";

        File file = new File(path);
        ITesseract instance = new Tesseract();

        //设置训练库的位置
        instance.setDatapath(lagnguagePath);

        //chi_sim :简体中文, eng    根据需求选择语言库
        instance.setLanguage("thz");
        String result = null;
        try {
            long startTime = System.currentTimeMillis();
            result =  instance.doOCR(file);
            long endTime = System.currentTimeMillis();
            System.out.println("Time is:" + (endTime - startTime) + " 毫秒");
        } catch (TesseractException e) {
            e.printStackTrace();
        }

        System.out.println("result: ");
        System.out.println(result);
    }
}

这里需要注意修改的有几点

  • 图片的位置
  • 语言库的位置
  • 选择的语言库
    语言库这里给大家下载链接
    github
    中文简体包
    最后运行结果大概是下面这样的
    在这里插入图片描述
    可以看到还是有很多不准确的地方,这怎么行呢。得想办法提高准确的啊,于是又在网上搜了一圈,基本上都是优化语言训练库和openVC的方法。
    openVC已经有大佬写了demo上传到码云了,地址
    我把代码拉下来试了一下,作者的处理方法是在前端页面将身份证号码那一块裁剪下来传入后端识别,准确度基本达到了99%。但是仅仅是身份证号码对我来说并不够,对于地址姓名等中文识别还是不太又好。

然后就是优化语言训练库了
参考了Tesseract4.0训练字库 OCR 提高识别率必备(超详情)这篇文章也去试了一下。方法应该是可行的,但是应该需要大量的训练才能达到极高的准确度。(这篇文章里用的这种图片基本都还好,但是用到身份证和营业执照上,用训练的照片去识别都仍有差别,感觉是需要极大数据量才能减小误差了)。

开源API这条路暂时是走不通了。
研究研究付费的吧。

参考
使用tess4j完成身份证和营业执照图片的文字识别
Java使用Tess4J 实现简单的图像识别(Maven版)

  • 7
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值