基于paddleocr的版面分析

博观而约取,厚积而薄发

已于 2024-01-27 16:49:04 修改

阅读量1.5k

点赞数

分类专栏： PaddlePaddle 文章标签： ocr

于 2023-08-23 20:27:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mddCSDN/article/details/132459685

版权

PaddlePaddle 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

前处理：

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction

（1）几何矫正

给定一张存在几何和光照畸变的文档图像，我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取，并降低特征图分辨率至输入图像的1/8尺度，以保证网络的推理效率。然后，我们将提取的特征图展平后，输入至Transformer编码器，解码器，以及我们设计的可学习的上采样模块，得到坐标位移矩阵。最后，我们用对坐标位移矩阵对输入的图像进行几何矫正（即基于双线性插值的在输入图像上按坐标进行像素重采样）。

（2）光照恢复

给定一张几何矫正输出的高分辨率图像，我们首先将其切分成相互之间有1/8重叠的图像块。然后，我们将每一个图像块输入至卷积特征提取器，Transformer编码器，解码器，以及卷积输出头，从而输出光照恢复的图像块。最后，我们将每一个恢复的图像块进行空间上的拼接，完成文档图像的光照恢复。

1、版面分析

使用轻量模型PP-PicoDet检测模型实现版面各种类别的检测。

注意

版面分析模型的结果导出时不需要有后处理，可以在configs/runtimes.yml中设置benchmark=True

数据集：

英文：publaynet数据集的训练集合中包含35万张图像，验证集合中包含1.1万张图像。总共包含5个类别。

中文：CDLA据集的训练集合中包含5000张图像，验证集合中包含1000张图像

2、文本检测和识别

文本检测：

改进了基于分割的DBNet (Differentiable Binarization)

数据集：ICDAR 2015 数据集包含1000张训练图像和500张测试图像。

文本识别：

SVTR_LCNet（将基于Transformer的SVTR网络和轻量级CNN网络PP-LCNet 融合的一种轻量级文本识别网络）

数据集：

ICDAR 2015：训练4468，测试2077

3、表格

1. 文字检测模型：用于检测表格里的文本

2. 文字识别模型：用于对检测到的文本进行识别

3. SLANet模型用于预测表格结构的HTML信息和表格单元格坐标

数据集：

PubTabNet数据集的训练集合中包含50万张图像，验证集合中包含0.9万张图像

好未来表格识别竞赛数据集的训练集合中包含1.6万张图像。验证集未给出可训练的标注。

参考来源： GitHub - PaddlePaddle/PaddleOCRhttps://github.com/PaddlePaddle/PaddleOCR

博观而约取,厚积而薄发

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
基于paddleocr的版面分析

文本识别：SVTR_LCNet（将基于Transformer的SVTR网络和轻量级CNN网络PP-LCNet 融合的一种轻量级文本识别网络）英文：publaynet数据集的训练集合中包含35万张图像，验证集合中包含1.1万张图像。PubTabNet数据集的训练集合中包含50万张图像，验证集合中包含0.9万张图像。验证集未给出可训练的标注。中文：CDLA据集的训练集合中包含5000张图像，验证集合中包含1000张图像。数据集：ICDAR 2015 数据集包含1000张训练图像和500张测试图像。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。