PaddleOCR问题精选
-
-
- 1.常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类,当然还有一些将两者进行结合的方法。
- 2.对于中文行文本识别,CTC和Attention哪种更优?
- 3.弯曲形变的文字识别需要怎么处理?TPS应用场景是什么,是否好用?
- 4.简单的对于精度要求不高的OCR任务,数据集需要准备多少张呢?
- 5.背景干扰的文字(如印章盖到落款上,需要识别落款或者印章中的文字),如何识别?
- 6.OCR领域常用的评估指标是什么?
- 7.单张图上多语种并存识别(如单张图印刷体和手写文字并存),应该如何处理?
- 8.请问PaddleOCR项目中的中文超轻量和通用模型用了哪些数据集?训练多少样本,gpu什么配置,跑了多少个epoch,大概跑了多久?
- 9.PaddleOCR模型推理方式有几种?各自的优缺点是什么
- 10.PaddleOCR中,对于模型预测加速,CPU加速的途径有哪些?基于TenorRT加速GPU对输入有什么要求?
-
GT(paddle答疑机器人)答疑汇总,该模块所有数据源于GT老哥,已经得到授权,如果有问题可以留言,我们会及时修改。
1.常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类,当然还有一些将两者进行结合的方法。
(1)基于回归的方法分为box回归和像素值回归。
a. 采用box回归的方法主要有CTPN、Textbox系列和EAST,这类算法对规则形状文本检测效果较好,但无法准确检测不规则形状文本。
b. 像素值回归的方法主要有CRAFT和SA-Text,这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。
(2)基于分割的算法,如PSENet,这类算法不受文本形状的限制,对各种形状的文本都能取得较好的效果,但是往往后处理比较复杂,导致耗时严重。目前也有一些算法专门针对这个问题进行改进,如DB,将二值化进行近似,使其可导,融入训练,从而获取更准确的边界,大大降低了后处理的耗时。
2.对于中文行文本识别,CTC和Attention哪种更优?
(1)从效果上来看,通用OCR场景CTC的识别效果优于Attention,因为带识别的字典中的字符比较多,常用中文汉字三千字以上,如果训练样本不足的情况下,对于这些字符的序列关系挖掘比较困难。中文场景下Attention模型的优势无法体现。而且Attention适合短语句识别,对长句子识别比较差。
(2)从训练和预测速度上,Attention的串行解码结构限制了预测速度,而CTC网络结构更高效,预测速度上更有优势。
3.弯曲形变的文字识别需要怎么处理?TPS应用场景是什么,是否好用?
(1)在大多数情况下,如果遇到的场景弯曲形变不是太严重