基于paddleocr的版面分析

前处理

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction

(1)几何矫正

给定一张存在几何和光照畸变的文档图像,我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取,并降低特征图分辨率至输入图像的1/8尺度,以保证网络的推理效率。然后,我们将提取的特征图展平后,输入至Transformer编码器,解码器,以及我们设计的可学习的上采样模块,得到坐标位移矩阵。最后,我们用对坐标位移矩阵对输入的图像进行几何矫正(即基于双线性插值的在输入图像上按坐标进行像素重采样)。

(2)光照恢复

给定一张几何矫正输出的高分辨率图像,我们首先将其切分成相互之间有1/8重叠的图像块。然后,我们将每一个图像块输入至卷积特征提取器,Transformer编码器,解码器,以及卷积输出头,从而输出光照恢复的图像块。最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的光照恢复。

1、版面分析

使用轻量模型PP-PicoDet检测模型实现版面各种类别的检测。

注意

版面分析模型的结果导出时不需要有后处理,可以在configs/runtimes.yml中设置benchmark=True

数据集:

英文:publaynet数据集的训练集合中包含35万张图像,验证集合中包含1.1万张图像。总共包含5个类别。

中文:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像

2、文本检测和识别

文本检测:

改进了基于分割的DBNet (Differentiable Binarization)

数据集:ICDAR 2015 数据集包含1000张训练图像和500张测试图像。

文本识别:

SVTR_LCNet(将基于Transformer的SVTR网络和轻量级CNN网络PP-LCNet 融合的一种轻量级文本识别网络)

数据集:

ICDAR 2015:训练4468,测试2077

 

 3、表格

1. 文字检测模型:用于检测表格里的文本

2. 文字识别模型:用于对检测到的文本进行识别

3. SLANet模型用于预测表格结构的HTML信息和表格单元格坐标

数据集:

PubTabNet数据集的训练集合中包含50万张图像,验证集合中包含0.9万张图像

好未来表格识别竞赛数据集的训练集合中包含1.6万张图像。验证集未给出可训练的标注。

参考来源: GitHub - PaddlePaddle/PaddleOCRicon-default.png?t=N7T8https://github.com/PaddlePaddle/PaddleOCR

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值