使用PaddleOCR工具进行图像识别
今天刷小红书刷到一个帖子用PaddleOCR进行图像识别。想起来之前用tess4j进行过一次图像识别,但是当时在赶论文,就没有继续深入。具体情况请看前贴。 tess4j图像识别
从github上下载下 PaddleOCR 的包,我下的是 PaddleOCR-json v1.3.1 。
下载后解压,开始写代码测试。我在网上找了很多博客,也参考了文心一言的回答,都没有成功调用。
最后,我在 Maven 仓库找到一个依赖。
<dependency>
<groupId>com.litongjava</groupId>
<artifactId>paddle-ocr-service</artifactId>
<version>1.0.0</version>
</dependency>
使用这个封装好的依赖,成功进行了图像的识别。由于是使用已经调教好的模型,文章的识别准确率极高,相比上次的tess4j的结果,这次是令人相当满意的。
代码和结果如下:
String imagePath = "D:\\tess4j\\0.png";
Path imageFile = Paths.get(imagePath);
Image image = OpenCVImageFactory.getInstance().fromFile(imageFile);
String ocr = PaddlePaddleOCRV4.INSTANCE.ocr(image);
System.out.println("Recognized text:\n");
System.out.println(ocr);
原图片:
识别结果:
Recognized text:
需改进的地方:
(1)章节之间内容衔接性不强,需加强讨论的深入性,建议重组各章节研究内容以强
化全文的思路。
(2)对图表的分析不够,需分析数据之间的关联度,与他人研究的关联度。
(3)部分图表内的数字太小,有无放的必要,是否合适。
(4)斟酌“首次研究”之类的词是否的确是首次。
(5)对樱桃萝卜、蚯蚓等写明拉丁文学名。
(6)附录是一个独立的部分,附录所引用的参考文献也需要给与清单。
(7)细菌属名需斜体。
(8)全角、半角符号不统一。
(9)表达文献调研的网络图太多。
(10)论文像实验报告的集合,不像论文。第二章没有一个参考文献。讨论不够深入。
(11)摘要中不要提“有待进一步研究”,动物、植物的说法与后文所用的物种相比太
大了,建议换成模式生物。
(12)需要进一步挖掘数据,eg:p32 2.4,计算富集系数、迁移系数等以对数据进行深挖。
(13)有没有必要做一个差异分析,从统计学的角度得出相应的结论。
希望大家仔细研究这个来自 com.litongjava 的依赖。学习他的思路,进而写出适用于自己业务或兴趣的 jar 。