论文推荐|【KSII TIIS 2021】DP-LinkNet:一种用于古籍文档图像二值化的卷积网络(有源码)...

今日分享来自【KSII TIIS 2021】的论文『DP-LinkNet: A convolutional network for historical document image binarization』。

详情信息如下:

  • 作者信息:Wei Xiong, Xiuhong Jia, Dichun Yang, Meihui Ai, Lirong Li, Song Wang

  • 单位信息:湖北工业大学电气与电子工程学院;美国南卡罗来纳大学计算机科学与工程系

  • 论文链接:http://itiis.org/digital-library/24643

  • 项目链接:https://github.com/beargolden/DP-LinkNet

导言:

       本文简要介绍了作者在ICDAR 2019手机拍照文档图像的时间质量二值化竞赛中的获奖算法[1]。

      01      

研究背景

历史古籍是珍贵的文化遗产,具有重要的科学和文化价值。古籍文档数字化是解决文献保护和文化传承的重要途径。然而,手工处理这些海量文献,不仅费时费力,而且容易出错,因此需要借助计算机对古籍图像进行自动化处理。古籍文档分析与识别(H-DAR)系统应运而生,它主要包括图像预处理、文档图像二值化、版面分析、文本检测与识别等环节。

针对现代图书的扫描文档识别技术已经很成熟,但历史古籍的文本识别效果还不理想,而且后者的难度远大于前者,原因在于历史古籍中的文字展现形式极其丰富:(1)允许多语种文本混排,字符具有不同的大小、字体、颜色、亮度、对比度等;(2)文本行可能有横向、竖向、弯曲、旋转、扭曲等样式;(3)图像中的文字区域还可能存在墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象;(4)古籍文档图像的背景变化多样,如纸张老化发黄或页面存在污渍,文字区域附近有复杂的背景纹理或非文字区域有近似文字的纹理等,如图1所示。因此,古籍文档图像分析与识别是一项非常具有挑战性的任务。

图1  古籍文档图像样例,(a)选自Bickley日记数据集,(b)-(g)选自DIBCO竞赛数据集

基于深度学习的图像语义分割模型大多遵循编码器-解码器体系结构,如FCN(全卷积网络)[2]和U-Net[3]。尽管取得了成功,但这类网络模型仍具有三个局限性:(1)连续池化和下采样导致中间层特征图的分辨率下降,(2)文本实例对象的多尺度特性,(3)由于深度卷积神经网络(DCNN)内置的空间不变性,从而降低了空间定位精度。

为了克服第一个问题并有效地生成密集特征图,作者采用了混联空洞卷积(HDC)模块,以使中间特征图更加密集。与使用较大卷积核的标准卷积层相比,空洞卷积层可以在不降低中间特征图空间分辨率的情况下增加感受野的大小。

为了解决第二个问题,可以对图像进行不同比例的裁剪,然后对特征图进行融合。虽然这种方法是有效的,但它引入了太多的计算成本。受空间金字塔池化(SPP)的启发,作者对输入特征图进行不同比例的子采样,以进一步编码全局上下文信息,这样可以在不同尺度上获得目标信息。

DCNN具有空间不变性,即对位置信息不敏感,这对于分类任务来说是可取的,但会阻碍密集型预测任务,如语义分割。因此,解决第三个问题时作者采用的方法是增加跳跃连接来提取不同层次的特征,并在解码器处融合这些特征,以获得分割结果。

 

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值