PaddleOCR的整体理解

本文介绍了PP-OCR光学字符识别系统,它在Paddle平台上运行,包括文本检测、检测框校正和识别三个部分。系统利用CPU提高效率,采用MobileNetV3作为文本检测和方向分类器的骨架网络,并通过数据增强提升性能。方向分类器使用改进的PACT量化方法以平衡精度和效率。未来将继续深入研究相关模型和算法。
摘要由CSDN通过智能技术生成

2021SC@SDUSC
  OCR全称为Optical Character Recognition,即光学字符识别技术。PP-OCR是在飞浆Paddle平台上发布的一种实用的超轻量级OCR系统,该系统由文本检测、检测框校正和文本识别三部分组成。我负责文本检测的方向分类器部分的深入学习和探索。
  PP-OCR系统选择CPU来提高计算效率,以满足处理大量图像的需求。具体工作流程为,图像先经过文字检测,将图中可能包含文字的部分进行分割处理,形成一个一个的检测框。然后系统矫正检测框,将检测框转换为水平矩形框进行后续的文本识别。在这个环节中矫正后的框体可能会被反转,系统使用方向分类器来检测并改正文本的方向为正向。最后系统进行文字识别,将检测框里的文字打印出来。过程如下图1。可微分二值化(DB,Differentiable Binarization)作为基于简单分割网络的文本检测器,CRNN作为文本识别器。
图1 PP-OCR的框架

  在文本检测方面,PP-OCR使用MobileNetV3作为文本检测器模型的骨架。当预测时间相同时,MobileNetV3可以达到更高的精度。方向分类器的主干也是MobileNetV3。由于方向分类这个任务比较简单,所以系统选用MobileNetV3_small_x0.35来平衡准确性和效率。基础数据增强算法(BDA,Base Data Augmentation)和RandAugment算法是很好的图像数据增强算法,而且可以用于方向分类器的训练。PP-OCR中就在方向分类的训练图像中使用了这两种算法。图像的分辨率与识别精度有关,PP-OCR将归一化图像的高度和宽度分别设置为48和192,以此来提高方向分类器的准确率。量化(quantization)可以减小模型体积和加速计算,但是会造成一定程度上的精度受损。由于骨架MobileNetV3中的激活函数为ReLU和hard swish,所以如果使用普通的PACT(PArameterized Clipping acTivation)量化会导致更高的量化损失。PACT对激活进行预处理的公式如下图2所示。系统采用改进后的PACT量化方法对方向分类器模型进行量化。改进后的PACT处理公式如下图3所示。
图2 PACT对激活进行预处理的公式
图3 改进后的PACT处理公式
  我将在以后的时间对方向处理器涉及的模型和算法进行深入学习和探究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值