基于可视化检测的文档质量提升

watersink

于 2018-09-15 19:21:15 发布

阅读量853

点赞数 2

分类专栏： OCR OCR大趴踢

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_14845119/article/details/82716811

版权

OCR大趴踢同时被 2 个专栏收录

31 篇文章

订阅专栏

28 篇文章

订阅专栏

论文：Document Enhancement using Visibility Detection

cvpr2018论文。论文主要基于3d点云的方法，对文档图片进行去阴影操作，进而提升检测和识别。

整体流程：

首先作者将一副图像想象成具有哦3d信息的点云。像素值的大小表示3d表面的凹凸。白色背景表示为高原，污迹，阴影表示为火山地带，黑色的字表示为峡谷。由b中绿色的点对整个3d点云进行观察，产生c中的可见性检测图。阴影上有好多红色点的可见像素，字体上基本没有红色的点，然后对阴影进去除，得到最终去阴影后的d图。

可见性检测的2种方法：

HPR：检测可见的点的方法

TPO：检测遮挡的点的方法

假设红色点为视点，蓝色为可见的点，绿色为遮挡的点

图像二值化流程：

首先对于输入图像a，基于3d点云的方法可以获得b这种带红色可见阴影点的结果。对b中的红色阴影点做图片平均滑动，类似于均值滤波操作，可以得到c图背景图片。然后通过a图减去c图，就获得了去除背景阴影的低光图d。由于去掉了阴影，因此用d图做二值化操作，可以得到比直接用原始a图做二值化操作更好的结果。最终二值化结果f由于传统的e。

A为原始图像的直方图分布，b为经过处理得到的低光图。从两者的直方图分布可以看出，前景蓝色和悲剧红色可以更好的分开，具有更好的分界岭。

总结：

论文的思想非常novel，将平面的图片想象为3d的点云，并提出行之有效的方法来去掉背景阴影。
相比ocropy中去背景的方法。两者同为传统方法。Ocropy中基于背景像素为滤波中滑动窗口中70%位置的像素，而本文则通过可见性来检测背景像素。
相比Hybrid Deep Architecture中基于笔画识别+GMM，再去处背景的方法，本文的思想更好
相比ocropus中基于神经网络2dlstm的方法，也许结果上未必有神经网络的好。神经网络的方法也许才是当前的主流，不管处理过程，速度，效果上都占有优势。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。