关注公众号,发现CV技术之美
本文介绍TMM 2023录用论文“Deep Unrestricted Document Image Rectification”的主要工作。这篇文章提出了一种新型的通用文档图像校正算法,即DocTr++。DocTr++解决了现有文档图像校正算法的短板,可以有效地对日常生活中拍摄的文档边界任意分布的图像进行几何校正。
一、研究背景
近年来,随着文档数字化的需求日益增加,文档图像矫正领域取得了显著进展。图1展示了三类常见的形变文档图像:(a) 包含完整文档边界,(b) 包含部分文档边界,(c) 不包含文档边界。然而,现有的基于深度学习的解决方案均仅限于处理限定场景下的文档图像,即输入图像须包含完整的文档(图1(a))。当输入的文档图像仅包含局部区域(图1(b))或不包含完整的文档边界(图1(c))时,矫正质量会出现坍塌。
图1 常见的三类文档图像
二、方法原理简述
DocTr++采用了多尺度的编码器-解码器结构进行有效的特征编解码,并且重新定义了各类形变文档图像与无形变文档图像之间的逐像素映射关系。方法框架图如图2所示。
图2 DocTr++网络框架
首先, 在畸变特征编码器中,DocTr++采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器,进行特征提取和融合。其中,编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。
接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(Learnable Queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。实验发现,每一个矫正提示向量会关注输入形变文档图像中的某一特定区域 (如图3所示),这些区域组合起来便覆盖整张输入图像。同样,解码器由三个子模块组成,每个子模块包含两个标准的 Transformer 解码层。
图3 DocTr++中encoder和decoder的attention机制可视化实例
图4 畸变文档图像到无畸变文档图像的光流映射
论文提出了两种新的评价指标 MSSIM-M 和 LD-M,用于通用形变文档图像矫正质量的评估。因为边界不完整的形变文档图像在矫正后可能会出现像素缺失,如图5所示,本文将有效像素区域的掩膜矩阵与目标图像进行矩阵乘法,得到更适宜进行评价的目标图像。
图5 现有评价指标和本文评价指标的区别
三、主要实验结果及可视化结果
论文在公开的有边界形变文档图像测试基准和本文新提出的通用形变文档图像测试基准上都进行了性能评估,在两种数据集上都展现了优异的性能。
下图展示了各类形变文档图像的矫正结果,包括试卷、文本段落、书页、手写文档等。
图6 DocTr++校正结果可视化
下图展示了DocTr++的文档校正能力对于多模态大模型的提升。这里测试所用的多模态大模型为Qwen-VL。左图为形变文档图的问答结果,右图为校正图的问答结果。
图7 DocTr++的文档校正能力对于多模态大模型的提升示例
四、总结
本文介绍了一种全新的通用形变文档图像矫正框架DocTr++,DocTr++突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,DocTr++采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,该团队还贡献了一个真实场景的测试基准和新的评估指标,以评估各类真实文档图像的矫正质量。通过在公开的测试基准和本工作提出的测试基准上进行大量实验,验证了该方法的有效性和鲁棒性。作者团队希望能为未来本领域研究提供一个强有力的基准方法,为进一步研究和发展通用形变文档图像矫正方法提供基础。
五、相关资源
论文地址:
https://arxiv.org/pdf/2304.08796.pdf
代码:https://github.com/fh2019ustc/DocTr-Plus
Demo:https://doctrp.docscanner.top/
参考文献
[1] H. Feng, Y. Wang, W. Zhou, J. Deng, and H. Li, “DocTr: Document image transformer for geometric unwarping and illumination correction,” in Proceedings of the ACM International Conference on Multimedia, 2021, pp. 273–281.
[2] K. Ma, Z. Shu, X. Bai, J. Wang, and D. Samaras, “DocUNet: Document image unwarping via a stacked U-Net,” in Proceedings of the IEEE International Conference on Computer Vision, 2018, pp. 4700–4709.
[3] J. Zhang, C. Luo, L. Jin, F. Guo, and K. Ding, “Marior: Margin removal and iterative content rectification for document dewarping in the wild,” in Proceedings of the ACM International Conference on Multimedia, 2022, pp. 2805–2815.
原文作者:Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li
撰稿:冯 浩
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
END
欢迎加入「OCR」交流群👇备注:OCR