论文推荐｜【KSII TIIS 2021】DP-LinkNet：一种用于古籍文档图像二值化的卷积网络(有源码)...

最新推荐文章于 2022-09-17 12:52:27 发布

我爱计算机视觉

最新推荐文章于 2022-09-17 12:52:27 发布

阅读量837

点赞数

文章标签：卷积计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/117970803

版权

DP-LinkNet是一种用于历史文档图像二值化的卷积网络，解决了古籍文档图像分析的挑战。通过混联空洞卷积(HDC)和空间金字塔池化(SPP)模块，提高了对多尺度特征和空间定位的处理能力。该方法在DIBCO和H-DIBCO竞赛数据集上表现出优越性能，优于其他深度学习方法。

摘要由CSDN通过智能技术生成

今日分享来自【KSII TIIS 2021】的论文『DP-LinkNet: A convolutional network for historical document image binarization』。

详情信息如下：

作者信息：Wei Xiong, Xiuhong Jia, Dichun Yang, Meihui Ai, Lirong Li, Song Wang
单位信息：湖北工业大学电气与电子工程学院；美国南卡罗来纳大学计算机科学与工程系
论文链接：http://itiis.org/digital-library/24643
项目链接：https://github.com/beargolden/DP-LinkNet

导言：

本文简要介绍了作者在ICDAR 2019手机拍照文档图像的时间质量二值化竞赛中的获奖算法[1]。

研究背景

历史古籍是珍贵的文化遗产，具有重要的科学和文化价值。古籍文档数字化是解决文献保护和文化传承的重要途径。然而，手工处理这些海量文献，不仅费时费力，而且容易出错，因此需要借助计算机对古籍图像进行自动化处理。古籍文档分析与识别(H-DAR)系统应运而生，它主要包括图像预处理、文档图像二值化、版面分析、文本检测与识别等环节。

针对现代图书的扫描文档识别技术已经很成熟，但历史古籍的文本识别效果还不理想，而且后者的难度远大于前者，原因在于历史古籍中的文字展现形式极其丰富：(1)允许多语种文本混排，字符具有不同的大小、字体、颜色、亮度、对比度等；(2)文本行可能有横向、竖向、弯曲、旋转、扭曲等样式；(3)图像中的文字区域还可能存在墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象；(4)古籍文档图像的背景变化多样，如纸张老化发黄或页面存在污渍，文字区域附近有复杂的背景纹理或非文字区域有近似文字的纹理等，如图1所示。因此，古籍文档图像分析与识别是一项非常具有挑战性的任务。

图1 古籍文档图像样例，(a)选自Bickley日记数据集，(b)-(g)选自DIBCO竞赛数据集

基于深度学习的图像语义分割模型大多遵循编码器-解码器体系结构，如FCN(全卷积网络)[2]和U-Net[3]。尽管取得了成功，但这类网络模型仍具有三个局限性：(1)连续池化和下采样导致中间层特征图的分辨率下降，(2)文本实例对象的多尺度特性，(3)由于深度卷积神经网络(DCNN)内置的空间不变性，从而降低了空间定位精度。

为了克服第一个问题并有效地生成密集特征图，作者采用了混联空洞卷积(HDC)模块，以使中间特征图更加密集。与使用较大卷积核的标准卷积层相比，空洞卷积层可以在不降低中间特征图空间分辨率的情况下增加感受野的大小。

为了解决第二个问题，可以对图像进行不同比例的裁剪，然后对特征图进行融合。虽然这种方法是有效的，但它引入了太多的计算成本。受空间金字塔池化(SPP)的启发，作者对输入特征图进行不同比例的子采样，以进一步编码全局上下文信息，这样可以在不同尺度上获得目标信息。

DCNN具有空间不变性，即对位置信息不敏感，这对于分类任务来说是可取的，但会阻碍密集型预测任务，如语义分割。因此，解决第三个问题时作者采用的方法是增加跳跃连接来提取不同层次的特征，并在解码器处融合这些特征，以获得分割结果。

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文推荐｜【KSII TIIS 2021】DP-LinkNet：一种用于古籍文档图像二值化的卷积网络(有源码)...

今日分享来自【KSII TIIS 2021】的论文『DP-LinkNet: A convolutional network for historical document image bi...
复制链接

扫一扫