0、PaddleOCR实战-OCR

愚昧之山绝望之谷开悟之坡

已于 2022-07-16 18:23:51 修改

阅读量1.1k

点赞数 2

分类专栏： NLP实战项目笔记文章标签： python 开发语言

于 2022-05-30 19:32:39 首次发布

本文链接：https://blog.csdn.net/qq_15821487/article/details/125010424

版权

笔记同时被 2 个专栏收录

635 篇文章 16 订阅

订阅专栏

NLP实战项目

202 篇文章 13 订阅

订阅专栏

github地址

官方repo

一、视频教程

视频1 开源最强OCR系统PP-OCRv3揭秘
 视频2 云边端全覆盖的PP-OCRv3训练部署实战
 视频3 OCR产业应用全流程拆解与实践
 视频4 车牌识别

二、Paddlehub模型实战

2.1、旧版本

chinese_ocr_db_crnn_server 一键使用
 chinese_ocr_db_crnn_mobile 手机端一键使用

2.2、最新版本

ch_pp-ocrv3 一键使用

2.3、数据集说明

2.3.1、文本检测

标注文件格式如下，中间用’\t’分隔：

" 图像文件名 json.dumps编码的图像标注信息"
ch4_test_images/img_61.jpg [{“transcription”: “MASA”, “points”: [[310, 104], [416, 141], [418, 216], [312, 179]]}, {…}]
json.dumps编码前的图像标注信息是包含多个字典的list，字典中的 points 表示文本框的四个点的坐标(x, y)，从左上角的点开始顺时针排列。 transcription 表示当前文本框的文字，当其内容为“###”时，表示该文本框无效，在训练时会跳过。

2.3.2、文本识别

注意 PP-OCRv3的识别模型使用的输入shape为3,48,320, 如果使用其他识别模型，则需根据模型设置参数–rec_image_shape。此外，PP-OCRv3的识别模型默认使用的rec_algorithm为SVTR_LCNet，注意和原始SVTR的区别。

标注文件的格式如下， txt文件中默认请将图片路径和图片标签用’\t’分割，如用其他方式分割将造成训练报错。

" 图像文件名图像标注信息 "

train_data/rec/train/word_001.jpg 简单可依赖
train_data/rec/train/word_002.jpg 用科技让复杂的世界更简单
…

2.3.3、方向检测

文本方向分类器主要用于图片非0度的场景下，在这种场景下需要对图片里检测到的文本行进行一个转正的操作。在PaddleOCR系统内，文字检测之后得到的文本行图片经过仿射变换之后送入识别模型，此时只需要对文字进行一个0和180度的角度分类，因此PaddleOCR内置的文本方向分类器只支持了0和180度的分类。如果想支持更多角度，可以自己修改算法进行支持。

0和180度数据样本例子：
在这里插入图片描述