【OCR】PaddleOCR 简单 demo 入门

PaddleOCR开源地址:https://github.com/PaddlePaddle/PaddleOCR

参考资料:快速入门PaddleOCR,并使用其开发一个搜题小工具

1. 配置环境

安装依赖库:CPU版本的paddlepaddle

pip install paddlepaddle

安装PaddleOCR

pip install “paddleocr>=2.0.1”

2. 下载预训练模型

PaddleOCR 分为 Detection(文本检测)、 Direction classifier(方向分类器)和Recognition(文本识别)三部分,因此需要三个模型。

  • 文本检测:定位出图像中的文字区域
  • 方向分类器:将各种方向的文本框通过仿射变换变为水平方向,文本方向分类器用来判断文本是不是上下颠倒的
  • 文本识别:文本行图像解码为文本

官方代码仓中有模型下载地址:

        

        

其中文本检测有三个模型,分别是 MobileNetV3、ResNet18_vd 和 ResNet50,其中最常使用的是MobileNetV3 模型,整体比较小,适合应用于手机端。文本识别只有一个MobileNetV3预训练模型。方向分类器使用默认的模型。

这里使用中英文通用检测模型 PP-OCR (143.4M),将其三个子模型(tar压缩包)下载下来并解压,PaddleOCR加载的model是解压后的文件夹,而不是压缩包。

3. demo 入门

随便找一张图片进行OCR文本检测:
        

        

3.1 code

参考官方的demo:PaddleOCR demo

from paddleocr import PaddleOCR, draw_ocr
from PIL import Image


# load model
# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语,可以通过修改 lang参数进行切换
# lang参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`
ocr = PaddleOCR(lang="ch",
                use_gpu=False,
                det_model_dir="../paddleORC_model/ch_ppocr_server_v2.0_det_infer/",
                cls_model_dir="ch_ppocr_mobile_v2.0_cls_infer/",
                rec_model_dir="ch_ppocr_server_v2.0_rec_infer/")

# load dataset
img_path = 'test.jpg'
resul = ocr.ocr(img_path)
for line in result:
    print(line)

# 注:
# result是一个list,每个item包含了文本框,文字和识别置信度
# line的格式为:
# [[[3.0, 149.0], [43.0, 149.0], [43.0, 163.0], [3.0, 163.0]], ('人心安', 0.6762619018554688)]
# 文字框 boxes = line[0],包含文字框的四个角的(x,y)坐标
# 文字 txts = line[1][0]
# 识别置信度 scores = line[1][1]

# visual
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores)
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

3.2 识别结果

        

        

检测的输出结果:

[[[47.0, 35.0], [306.0, 35.0], [306.0, 90.0], [47.0, 90.0]], ('免夹免拉', 0.989071249961853)]
[[[52.0, 109.0], [276.0, 109.0], [276.0, 130.0], [52.0, 130.0]], ('操作简单居家可做', 0.988811731338501)]
[[[52.0, 146.0], [277.0, 146.0], [277.0, 167.0], [52.0, 167.0]], ('温和配方健康直发', 0.9917734861373901)]
[[[140.0, 441.0], [186.0, 441.0], [186.0, 455.0], [140.0, 455.0]], ('STRAIT', 0.9612524509429932)]
[[[113.0, 464.0], [208.0, 453.0], [213.0, 494.0], [118.0, 505.0]], ('glatt', 0.9871892929077148)]
[[[31.0, 561.0], [52.0, 560.0], [56.0, 642.0], [35.0, 643.0]], ('219PLUS', 0.7543826103210449)]
[[[609.0, 586.0], [774.0, 586.0], [774.0, 631.0], [609.0, 631.0]], ('活动价:', 0.9964019060134888)]
[[[594.0, 639.0], [799.0, 645.0], [794.0, 798.0], [589.0, 792.0]], ('45', 0.9980571269989014)]
[[[581.0, 652.0], [603.0, 652.0], [603.0, 680.0], [581.0, 680.0]], ('?', 0.8542420268058777)]
[[[143.0, 680.0], [473.0, 680.0], [473.0, 711.0], [143.0, 711.0]], ('下单赠送全套工具', 0.9827134609222412)]
[[[12.0, 749.0], [545.0, 747.0], [545.0, 781.0], [12.0, 783.0]], ('一梳就直免拉免夹家用直发膏', 0.9552955627441406)]

可以看到识别结果还是非常理想的,尽管模型中选择的语言 lang=“ch” ,但中英文都可以识别出来。

3.3 关于识别结果的说明

result = ocr.ocr(img_path)
for line in result:

result是一个list,每个item包含了文本框,文字和识别置信度
line的格式为:
[[[3.0, 149.0], [43.0, 149.0], [43.0, 163.0], [3.0, 163.0]], ('人心安', 0.6762619018554688)]
文字框 boxes = line[0],包含文字框的四个角的(x,y)坐标
文字 txts = line[1][0]
识别置信度 scores = line[1][1]

paddleOCR内置的可视化函数 draw_ocr() 方法需要 image, boxes, txts, scores 四个参数就可以实现可视化。当然该函数还可以接受其他参数,如字体文件路径。

  • 7
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ctrl A_ctrl C_ctrl V

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值