相信很多人对今年上半年YOLOv4的出现记忆尤新,YOLOv4在算法设计上吸纳了众多目标检测任务中验证有效的新技术、新trick,从数据处理、模型设计、训练策略等全方位尝试,最终有机组合出在算法精度和效率实现最好平衡的算法。
虽然YOLOv4没有带来新的算法技术或理念,但结果却是工业界非常欢迎的。
前段时间,百度公布并开源了OCR领域的新算法PP-OCR,其也是从工业界实用性角度出发,集近年来深度学习、OCR、模型压缩等技术进展之大成者,今天我们就一起来看看作者都做了哪些工作。
该文作者信息:
论文地址:
PP-OCR: A Practical Ultra Lightweight OCR System
开源地址:
https://github.com/PaddlePaddle/PaddleOCR
作者全部来自百度。
01
算法架构
典型的OCR系统,按照流程分为两大支:
1)先检测后识别(detection then recognition);
2)端到端识别(end to end text spotting);
作者们选择传统的先文本检测后文本识别的流程,另外对于检测到的文本,作者使用了校正模块。所以整体流程如下:
主要分文本检测、检测包围框校正和文本识别三部分。从上图可以看出这三部分主要使用的技术:
1)文本检测:
可微分二值化文本检测方法(DB ,Liao et al. 2020