利用Paddle OCR进行文字识别

置顶

侯德红

已于 2024-03-19 17:31:06 修改

阅读量7.8k

点赞数 3

文章标签： paddle python ocr java

于 2022-06-29 17:58:23 首次发布

本文链接：https://blog.csdn.net/hou_zi/article/details/125526891

版权

本文介绍如何利用Paddle OCR的HubServing服务和Java进行文字识别。首先部署Paddle OCR的本地HTTP服务，然后通过Java编写单元测试进行调用，识别图片中的文字，最终达到批量处理图片并过滤含有特定文字的目标。

摘要由CSDN通过智能技术生成

利用Paddle OCR HubServing + Java Demo进行文字识别

需求描述

需要批量过滤一批本地图片，将含有网址水印的图片剔除

实现逻辑

使用python开源库 chinese_ocr_db_crnn_server 部署成本地http服务，使用Java进行http调用,获取图片中的文字信息，进行文字比较。

经测试，识别效果很好，准确率也很高，至于性能需要看服务器的配置了。

运行环境

名称	版本
操作系统	Centos7.9
python	3.7.0
pip3	22.1.1
paddlepaddle	2.3

1. 安装paddlepaddle

python -m pip install paddlepaddle==2.3.0 -i https://mirror.baidu.com/pypi/simple
## 验证安装是否成功,执行下面命令出现 PaddlePaddle is installed successfully 即是安装成功
python3
import paddle
paddle.utils.run_check()

安装的过程中由于硬件和操作系统环境不同，可能会出现某些依赖缺少的情况，需要自己进行排错安装

2. 下载Paddle OCR的源码

## git仓库克隆源码
git clone https://gitee.com/PaddlePaddle/PaddleOCR
## 移动源码到你想要的位置
mv ./PaddleOCR /PaddleOCR
##进入PaddleOCR目录进行依赖的安装
cd /PaddleOCR
pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 模型库下载

需要下载3个模型，分别是检测模型，方向分类器，识别模型

模型	链接
检测模型	https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_server_v2.0_det_infer.tar
方向分类器	https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar
识别模型	https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_server_v2.0_rec_infer.tar

下载之后上传到PaddleOCR/interface目录下，interface如果无此目录则使用mkdir新建，然后解压

cd /PaddleOCR
mkdir interface
## 模型解压
tar -xvf ch_ppocr_mobile_v2.0_cls_infer.tar
tar -xvf ch_ppocr_server_v2.0_det_infer.tar
tar -xvf ch_ppocr_server_v2.0_rec_infer.tar

4. 安装HubServing服务

cd /PaddleOCR
export PYTHONPATH=.
## 下载服务模型
hub install chinese_ocr_db_crnn_server==1.1.1
## 服务启动
nohup hub serving start -m chinese_ocr_db_crnn_server >> /PaddleOCR/hub.log  2>&1 &
##出现 Running on http:/127.0.0.1:8866之类的信息表示启动成功
## 服务停止命令
kill -9 pid
## 或者
hub serving stop

5. 编写Java单元测试

package com.example.test.util;

import java.io.*;
import java.util.ArrayList;
import java.util.List;

/**
 * @autor Hou Dehong
 * @date 2022/5/19
 * @description
 */
public class PaddleDemo2 {
   

    public static List<String> list = new ArrayList<>();
    public static void main(String[] args) throws Exception {
   
        String url = "http://10.10.102.208:8866/predict/chinese_ocr_db_crnn_server";
        String dirOri = "C:\\Users\\Administrator\\Desktop\\";
        String fileName = "test.jpg";
        // 读取文件
        byte[] imgData = readFileByBytes(dirOri + fileName);
        String imgStr = Base64Util.encode(imgData);
        String param = "{\"images\":[\"" + imgStr + "\"]}";
        System.out.println(fileName);
        String result = HttpUtil.postGeneralUrl(url, "application/json", param,"UTF-8");
        System.out.println(result);
    }

    public static byte[] readFileByBytes(String filePath) throws IOException {
   
        File file = new File(filePath);
        if (!file.exists()) {
   
            throw new FileNotFoundException(filePath);
        } else {
   
            ByteArrayOutputStream bos = new ByteArrayOutputStream((int) file