只需半小时,搭建paddlepaddle-OCR识别服务(识别身份证、资格证等)

前言

简单尝试了下paddleOCR的最新版(2021),只需要几行命令就可以很快地在本地部署一个OCR识别系统

WX20210202-192125

如果不想看下文,依次执行以下命令即可搭建(注意:仅在linux系统中测试,其他系统也可参照):

# 有anaconda系统可以跳过
sh Anaconda3-2020.03-Linux-x86_64.sh
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
conda create --name python37 python=3.7
# 激活虚拟环境
source activate python37
pip3 install --upgrade pip
python3 -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simple
pip install paddlehub==2.0.0rc0
hub install chinese_ocr_db_crnn_server==1.1.1
hub serving start -m chinese_ocr_db_crnn_server

只需要半小时,执行几个比较简单的命令,就可以搭建一个简单的自然场景ocr识别系统。

输入图像输出ocr文本:
ocr_res

如果上述遇到问题或者有疑问,可以看具体操作:

开始搭建

首先建立好anaconda环境:

anaconda常用命令配置信息及更换源

然后开始安装paddle需要的库:

python -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simple

这里我安装的是GPU版本的,cpu版本的执行pip install paddlepaddle==2.0.0rc即可。

没想到一开始安装就遇到了空间不足的问题。

WX20210201-171013@2x

ERROR: Could not install packages due to an EnvironmentError: [Errno 28] No space left on device

这个问题很说白了是缓冲空间不足的问题。

如果有root权限,直接执行:

rm -fr /tmp/tmp*

如果没有root权限,自己创建一个tmp文件夹即可:

mkdir tmp
chmod 1777 tmp/
export TMPDIR=path/to/tmp

解决这个问题后,顺利安装。

继续安装paddlehub,执行:

pip install paddlehub==2.0.0rc0

安装完执行下判断hub服务功能正不正常:

import paddlehub
paddlehub.server_check()

测试正常后,可以执行简单测试一张图片:

import paddlehub as hub
import cv2

ocr = hub.Module(name="chinese_ocr_db_crnn_server")
result = ocr.recognize_text(images=[cv2.imread('/PATH/TO/IMAGE')])

没有什么问题,不过就是运行太慢了,这种方式运行每次都需要重新加载模型权重,如果需要实时则搭建为服务器的格式。

服务器推理

首先在命令行开启服务命令:

hub serving start -m chinese_ocr_db_crnn_server

默认端口8866。

推理官方的例子就可以直接使用:

import requests
import json
import cv2
import base64

def cv2_to_base64(image):
    data = cv2.imencode('.jpg', image)[1]
    return base64.b64encode(data.tostring()).decode('utf8')

# 发送HTTP请求
data = {'images':[cv2_to_base64(cv2.imread("/PATH/TO/IMAGE"))]}
headers = {"Content-type": "application/json"}
url = "http://127.0.0.1:8866/predict/chinese_ocr_db_crnn_server"
r = requests.post(url=url, headers=headers, data=json.dumps(data))

# 打印预测结果
print(r.json()["results"])

如果发现结果和官方提供的demo结果略有不同,建议可以调整下输入图像的尺寸,输入尺寸不同会影响输出的结果:

long_size = 1024     
height, width = img.shape[0:2]
max_part = max(height, width)
if max_part > long_size:
    scale_own = long_size / max_part
    img = cv2.resize(img, dsize=None, fx=scale_own, fy=scale_own)

错误分析

如果运行GPU的paddle-GPU服务提示这个错误:

Cannot load cudnn shared library. Cannot invoke method cudnnGetVersion.\n  [Hint: cudnn_dso_handle should not be null.

一般是没有在当前路径中找到cuda和cudnn的路径,在环境变量中设置一下就OK了:

export LD_LIBRARY_PATH=/urs/local/cuda/lib64:$LD_LIBRARY_PATH
export /urs/local/cuda/bin/:$PATH

如果服务正常,则会返回:

[INFO 2021-02-01 20:35:05,635 _internal.py:113] 172.30.12.15 - - [01/Feb/2021 20:35:05] "POST /predict/chinese_ocr_db_crnn_server HTTP/1.1" 200 -
[INFO 2021-02-01 20:35:10,554 _internal.py:113] 172.30.12.15 - - [01/Feb/2021 20:35:10] "POST /predict/chinese_ocr_db_crnn_server HTTP/1.1" 200 -
[INFO 2021-02-01 20:35:13,807 _internal.py:113] 172.30.12.15 - - [01/Feb/2021 20:35:13] "POST /predict/chinese_ocr_db_crnn_server HTTP/1.1" 200 -
[INFO 2021-02-01 20:35:26,604 _internal.py:113] 172.30.12.15 - - [01/Feb/2021 20:35:26] "POST /predict/chinese_ocr_db_crnn_server HTTP/1.1" 200 -

实在搞不定环境配置的可以直接运行docker,拉下来在docker环境中跑:

sudo docker run --name ppocr -v $PWD:/paddle --network=host -it  paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82  /bin/bash

进入镜像后,执行的命令和上述的一致。

这就是简易的paddlepaddle-OCR系统搭建过程~

参考链接

https://github.com/PaddlePaddle/PaddleHub/blob/release/v2.0.0-rc/docs/docs_en/installation_en.md
https://github.com/PaddlePaddle/PaddleOCR


WX20210128-000633@2x
微信扫码关注我哦

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: Tesseract-OCR是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以将图片中的文字转换为可编辑的文本。它最早由惠普实验室开发并于2005年移交给Google维护。 Tesseract-OCR基于机器学习算法,能够从图像中准确地识别出文字。它支持多种语言,包括中文,而且能够适应各种场景,如印刷品、手写文字、图片中的文字等等。 使用Tesseract-OCR库的过程相对简单。首先,要将待识别的图片转换为适合Tesseract-OCR处理的格式,如TIFF或PNG。然后,调用Tesseract-OCR库的API,将图片作为参数传递给库,即可得到识别结果。 Tesseract-OCR识别库具有以下几个优点。首先,它是一个开源项目,这意味着任何人都可以查看、修改和提升其代码,使其更适应不同的求。其次,它训练有素,可以提供高准确率的文字识别结果。此外,Tesseract-OCR库还可以通过训练自定义字体来提高特定字体的识别准确率,这一点对于要处理特定类型文字的应用非常有用。 然而,Tesseract-OCR库也存在一些局限性。首先,它对于复杂图形或低分辨率的图片的识别效果较差。其次,虽然Tesseract-OCR支持中文识别,但对于一些特殊的中文字符或排版形式可能出现辨识错误的情况。 综上所述,Tesseract-OCR是一个功能强大的OCR识别库,适用于各种场景的文字识别求。无论是从印刷品、手写文字还是图片中提取文字,Tesseract-OCR都能够提供准确的识别结果,并且其开源性质和可定制化的特点为用户提供了更大的自由度。 ### 回答2: Tesseract-OCR识别库是一个开源的光学字符识别(OCR)工具,由HP实验室开发,现由Google维护。它能够将印刷体或手写体的文字转换为计算机可识别的文本。 Tesseract-OCR识别库支持多种语言和平台,并且是一个高度准确的OCR引擎。它具有丰富的功能,包括自动文本分区、文本对齐和格式化、自动旋转图像等。此外,它还可以识别多个字体、文字大小和颜色的文本。 Tesseract-OCR识别库的使用也非常简单。它可以通过API或命令行界面进行调用和集成,还提供了生成HTML、PDF等格式文件的功能。用户可以通过调整参数来优化识别结果,如设置语言、字体和识别区域等。 Tesseract-OCR识别库在各种应用中得到广泛应用。它可以用于数字化文档、扫描文档、文本识别和自动化处理等方面。通过将纸质文档转换为可编辑的文本文件,可以提高办公效率和搜索能力,并方便文档的归档和分享。 总的来说,Tesseract-OCR识别库是一个强大且易于使用的工具,能够准确地将印刷体或手写体的文字转换为计算机可识别的文本。它的广泛应用范围使它成为数字化时代的重要工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老潘的博客

请老潘吃块饼干!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值