论文笔记：Document image dewarping using text-lines and line Segments

HenrySmale

已于 2023-05-02 10:14:13 修改

阅读量440

点赞数

分类专栏： OCR文字识别图像处理文章标签：学习人工智能算法

于 2022-12-12 21:28:25 首次发布

本文链接：https://blog.csdn.net/search_129_hr/article/details/128293496

版权

该文提出了一种稳健的文档图像去扭曲方法，结合文本行和线段信息。在处理复杂布局和少量文本行时表现优秀，通过迭代优化算法，考虑相机姿态、页面曲线和焦距，确保线段在矫正后保持直线，同时处理异常值，提高校正效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 核心思想

论文：Robust Document Image Dewarping Method Using Text-Lines and Line Segments
论文：Document Dewarping via Text-line based Optimization
代码：https://github.com/taeho-kil/Document-Image-Dewarping
在这里插入图片描述
传统的基于文本行的文档去扭曲方法在处理复杂布局和/或非常少的文本行时会出现问题。当图像中几乎没有对齐的文本行时，这通常意味着照片、图形和/或表格占据了输入的大部分。因此，为了稳健的文档去扭曲，我们建议除了对齐的文本行之外，还使用图像中的线段。基于所有变换后的线段仍然是直线的假设和观察（线到线映射），并且其中许多线段在校正良好的图像中水平或垂直对齐，除了基于文本行的成本。通过最小化函数，我们可以得到相机姿态、页面曲线（外参数）和相机焦距（内参数）的变换参数，用于文档校正。考虑到在某些情况下线段方向存在较多的离群点和遗漏的文本行，整体算法采用迭代的方式设计。在每一步中，我们删除水平/垂直对齐不好的文本组件和线段，然后使用更新后的信息最小化成本函数。实验结果表明，所提出的方