速看 | OpenCSG算法团队提升PaddleOCR的OCR识别精度

OpenCSG

于 2024-04-22 11:42:28 发布

阅读量704

点赞数 4

文章标签： ocr 飞桨 paddle 开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OpenCSG/article/details/138069009

版权

百度⻜桨出品的PaddleOCR，作为业界领先的光学字符识别解决方案，自推出以来一直备受开发者和企业的⻘睐。它基于深度学习的强大能力，提供从文本检测、文本识别到版面分析的一站式OCR服务，助力用户轻松应对多场景下的文字识别需求。 作为PaddleOCR的核心模块，PP-Structure提供了版面分析、表格识别、关键信息抽取和版面恢复等功能。

01 问题识别

OpenCSG算法团队在使用过程中发现，PP-Structure模块在版面分析中进行文字识别时，会因为布局区域坐标的误差而导致OCR精度下降。这是因为PP-Structure首先使用版面分析模型检测出布局区域，接着会根据每个布局区域对图像进行裁剪，随后使用OCR-rec模型识别裁剪图像中的文字。如果布局区域的坐标不准确，可能会导致裁剪出的图像区域有误，从而影响文字识别结果。

OCR识别精度提升之前标题

02 解决方案

为了解决这一问题，OpenCSG算法团队提出了一个混合解决方案。该方案的核心思想是：

文本区域检测：首先，使用OCR-det模型检测出所有可能的文本区域；
文本识别：对于每个文本区域，根据区域坐标对图像进行裁剪，再使用OCR-rec模型识别出其中包含的文本；
布局区域检测： 然后，使用版面分析模型检测出所有的布局区域；
区域交集过滤： 对于每个布局区域，筛选出与之相交的所有文本区域；
文本关联： 最后，将交集区域中的文本信息关联到对应的布局区域，作为该布局区域的最终识别结果。

03 优化效果

这一改进涉及到对PaddleOCR/ppstructure/predict_system.py文件的修改。过优化图像裁剪的坐标计算，确保了从布局区域中裁剪出的图像区域的准确性，从而提高了文字识别的精度。

标题 OCR识别精度提升之后

近日，OpenCSG团队已将其研发的优化成果贡献给了PaddleOCR项目，这一贡献不仅体现了团队对开源社区的深厚情感，也彰显了他们对技术精进的不懈追求。

详情参见：https://github.com/PaddlePaddle/PaddleOCR/pull/11916

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
速看 | OpenCSG算法团队提升PaddleOCR的OCR识别精度

近日，OpenCSG团队将其研发的优化成果贡献给了PaddleOCR项目！
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。