使用PaddleOCR工具进行图像识别

本文介绍了作者如何在GitHub上的PaddleOCR包支持下,通过Maven依赖成功实现图像识别,对比了与tess4j的性能,指出文章在结构和内容深度上的改进点。
摘要由CSDN通过智能技术生成

使用PaddleOCR工具进行图像识别


今天刷小红书刷到一个帖子用PaddleOCR进行图像识别。想起来之前用tess4j进行过一次图像识别,但是当时在赶论文,就没有继续深入。具体情况请看前贴。 tess4j图像识别

从github上下载下 PaddleOCR 的包,我下的是 PaddleOCR-json v1.3.1 。
下载后解压,开始写代码测试。我在网上找了很多博客,也参考了文心一言的回答,都没有成功调用。

最后,我在 Maven 仓库找到一个依赖。

		<dependency>
            <groupId>com.litongjava</groupId>
            <artifactId>paddle-ocr-service</artifactId>
            <version>1.0.0</version>
        </dependency>

使用这个封装好的依赖,成功进行了图像的识别。由于是使用已经调教好的模型,文章的识别准确率极高,相比上次的tess4j的结果,这次是令人相当满意的。
代码和结果如下:

        String imagePath = "D:\\tess4j\\0.png";
        Path imageFile = Paths.get(imagePath);
        Image image = OpenCVImageFactory.getInstance().fromFile(imageFile);
        String ocr = PaddlePaddleOCRV4.INSTANCE.ocr(image);
        System.out.println("Recognized text:\n");
        System.out.println(ocr);

原图片:
答辩秘书对我论文存在问题的记录
识别结果:

Recognized text:

需改进的地方: 
(1)章节之间内容衔接性不强,需加强讨论的深入性,建议重组各章节研究内容以强 
化全文的思路。 
(2)对图表的分析不够,需分析数据之间的关联度,与他人研究的关联度。 
(3)部分图表内的数字太小,有无放的必要,是否合适。 
(4)斟酌“首次研究”之类的词是否的确是首次。 
(5)对樱桃萝卜、蚯蚓等写明拉丁文学名。 
(6)附录是一个独立的部分,附录所引用的参考文献也需要给与清单。 
(7)细菌属名需斜体。 
(8)全角、半角符号不统一。 
(9)表达文献调研的网络图太多。 
(10)论文像实验报告的集合,不像论文。第二章没有一个参考文献。讨论不够深入。 
(11)摘要中不要提“有待进一步研究”,动物、植物的说法与后文所用的物种相比太 
大了,建议换成模式生物。 
(12)需要进一步挖掘数据,eg:p32 2.4,计算富集系数、迁移系数等以对数据进行深挖。 
(13)有没有必要做一个差异分析,从统计学的角度得出相应的结论。 

希望大家仔细研究这个来自 com.litongjava 的依赖。学习他的思路,进而写出适用于自己业务或兴趣的 jar 。

PaddleOCR 下载地址

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值