最好用的图文识别OCR -- PaddleOCR(1) 快速集成

后端常规开发人员

已于 2025-01-09 18:45:18 修改

阅读量2.7k

点赞数 20

分类专栏： OCR Python 模型文章标签： ocr python PaddleOCR 图文识别

于 2025-01-02 22:08:36 首次发布

本文链接：https://blog.csdn.net/qq_36228377/article/details/144893603

版权

Python 同时被 3 个专栏收录

5 篇文章

订阅专栏

OCR

4 篇文章

订阅专栏

模型

4 篇文章

订阅专栏

PaddleOCR快速集成

最近在项目中遇到了 OCR 的需求，希望能够实现高效而准确的文字识别。由于预算限制，我并未选择商业付费方案，而是优先尝试了开源工具。一开始，我测试了 GOT-OCR2.0，但由于我的 Mac 配置较低，不支持 GPU 运算，最终未能成功配置。于是，我转而尝试了百度飞桨AI的 PaddleOCR。经过实际测试，不仅配置过程相对顺利，其识别精度也显著优于 GOT-OCR2.0，最终选择了 PaddleOCR 作为解决方案。以下是我的配置与使用记录。

PaddleOCR 在线测试地址

PaddleOCR 提供了在线测试平台，方便快速验证模型效果：
https://aistudio.baidu.com/community/app/91660/webUI?source=appMineRecent

同一张图片在高效模型与高精度模型的推理结果之间可能存在差异：
高效率版本：
高效率版本推理结果

高精度版本：
高精度版本推理结果

接下来，我将分别介绍高效版本与高精度版本的安装与运行。

PaddleOCR 环境配置

PaddleOCR 建议使用 PaddleX 进行产线集成，其支持快速实现 OCR 的核心模块：

1. 安装 PaddlePaddle

根据硬件环境选择 CPU 或 GPU 版本安装：

# CPU 版本
python -m pip install paddlepaddle==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

# GPU 版本（根据 CUDA 版本选择）
python -m pip install paddlepaddle-gpu==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/  # CUDA 11.8
python -m pip install paddlepaddle-gpu==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cu123/  # CUDA 12.3

2. 安装 PaddleX

PaddleX 是基于飞桨的低代码开发工具，支持从模型训练到推理的全流程。安装命令如下：

pip install paddlex==3.0.0b2

基于 Docker 的运行环境搭建

以下是基于 Docker 构建的 PaddleOCR 环境，适合本地调试与部署：

1. Dockerfile 配置

FROM python:3.10-slim

RUN apt-get update && apt-get install -y  \
    git \
    libgl1-mesa-glx \
    libglib2.0-0 \
    ccache \
    && rm -rf /var/lib/apt/lists/*

RUN pip install --no-cache-dir --upgrade pip \
    && pip install paddlepaddle==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/ \
    && pip install paddlex==3.0.0b2

# RUN pip install --no-cache-dir -r requirements.txt

WORKDIR /app

COPY . /app

CMD ["tail", "-f", "/dev/null"]

2. 测试代码

创建 test.py，验证 OCR 推理流程：

from paddlex import create_pipeline
import cv2

pipeline = create_pipeline(pipeline="OCR")

img_name = "img1"

# 兼容 webp 格式的图片进行输入
#image = cv2.imread(f"../tb-img/{img_name}.webp")
#output = pipeline.predict(image)

output = pipeline.predict(f"../tb-img/{img_name}.jpg")
for res in output:
    res.print()
    res.save_to_img(f"./output/{img_name}.jpg")
    res.save_to_json(f"./output/{img_name}.json")

高效率版本(PP-OCRv4_mobile)推理结果

首次运行普通版本时，PaddleX 将自动下载默认的模型文件并保存至 /root/.paddlex/official_models 目录。
首次运行时 paddlex 会自动下载OCR产线的 文本检测模块(PP-OCRv4_mobile_det) 和 文本识别模块(PP-OCRv4_mobile_rec) 两个模型，并自动保存到 /root/.paddlex/official_models 目录下。

高效率版本的推理结果如下：

在这里插入图片描述

高精度版本(PP-OCRv4_server)模型配置

PaddleOCR 支持高精度版本模型，需手动下载对应模型文件：

PP-OCRv4_server_det（文本检测模块）
PP-OCRv4_server_rec（文本识别模块）

将下载的模型文件解压到 /root/.paddlex/official_models/ 目录下：

在这里插入图片描述

配置高精度版本

生成并修改 OCR.yaml 文件：

#生成配置文件到当前目录
paddlex --get_pipeline_config OCR

#若希望自定义保存位置，可执行如下命令（假设自定义保存位置为./my_path）
#paddlex --get_pipeline_config OCR --save_path ./my_path

编辑配置文件 OCR.yaml：

Global:
  pipeline_name: OCR
  input: https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_001.png
  
Pipeline:
  # text_det_model: PP-OCRv4_mobile_det
  # text_rec_model: PP-OCRv4_mobile_rec
  text_det_model: PP-OCRv4_server_det
  text_rec_model: PP-OCRv4_server_rec
  text_rec_batch_size: 1

在 test.py 中指定配置文件路径：

from paddlex import create_pipeline

#指定配置文件
pipeline = create_pipeline(pipeline="../OCR.yaml",device='cpu')

img_name = "img1"
output = pipeline.predict(f"../tb-img/{img_name}.jpg")
for res in output:
    res.print()
    res.save_to_img(f"./output/{img_name}.jpg")
    res.save_to_json(f"./output/{img_name}.json")