Script Identification of Multi-Script Documents: A Survey

论文地址:IEEE Xplore Full-Text PDF:

这是一篇2017年来自新疆大学的Survey,写得不是很好,没有提出什么观点,没有很好将各种方法串连起来,各种分类阐述也很粗暴。而且由于是2017年的文章,其中对当前研究的工作的总结已经不太具有太多的价值。但是其它方面的整理分类工作还是有一定价值,适合对script identification(脚本识别)这个领域没有太多了解的人了解一下。

在multi-script系统的OCR中,需要通过script identification去对各个script(脚本文本,可以理解为是语种)的比例进行检测。很多语种检测方面的工作研究的是Indian环境下的脚本,因为印度是一个多语种、多script的国家,它的官方语言有18种,不同的文本script有12种,官方文件被英语、印地语(Hindi (Devnagari))及地方官方语言三种语言印发。

script writing system 文字书写系统

主要分为六大类:Logographic system形素文字系统、Syllabic system音节文字系统、Alphabetic System拼音文字系统、Abjads辅音音素文字系统、Abugidas元音附标文字、Featural system特征系统。

 

 

上述六种书写系统包括许多具有相似形状字符的脚本(script),这是脚本识别中混淆的主要来源。 通常,每个脚本都有多个空间字符、变音符号、多图(包括有向图)或与同一书写系统中的其他脚本不同的连字。 这些特征是识别的关键。

截至文章发表已经发表的一些识别方法,大部分都是在印刷后再用scanner扫描进行识别:

 

 

相关的数据集

其中,因为脚本多样性和缺少公开的数据集,大部分的数据集是研究人员在实验室自己采集建立的。

  • Printed document:一般是通过一种脚本多种语言的自动翻译再通过机器印刷来创建多脚本数据。
  • Handprinted document:印刷和手写的脚本识别不同,某些脚本在手写文档中比在印刷文档中更相似,手写风格可能非常多变。 此外,由于使用的纸张和书写工具的多样性,在手写文档中,划线和字符碎片很常见。

下面为一些公开的数据库,在脚本/语言类型、字体类型和大小、缺乏退化/噪声图像等方面都比较有限。特别是大部分数据库只专门针对特定脚本,例如英语、汉语、阿拉伯语等,而没有可用于研究其他文字的数据库。

 

 

Script的特征

主要分为两种:

  • 局部特征:从文档图像的小文本组件中提取,主要考虑对内在特征的分析,如基于字符形状的特征character shape based features、结构特征structural features、统计特征statistical features、基于形态拓扑和轮廓的特征morphological, topological and contour based features、基于水库原理的特征water reservoir principle based features等。
  • 全局特征:从文档图像的文本块中提取,主要基于 DCT、DWT、Gabor、可控金字塔和 Radon 变换。 这些对噪声具有鲁棒性,偏差小,计算速度比局部特征快。 一般来说,全局特征被认为在表征大尺寸纹理图案方面是有效的,例如文本块。 此外,由于这些特征将文本块视为一个单一实体,因此不可能在文本行、单词或连接组件级别进行分析。 典型的全局特征来自纹理分析方法,包括 Gabor 滤波器、小波变换特征、离散余弦变换 (DCT) 、灰度共生矩阵、旋转不变特征、梯度特征、可控金字塔变换 等。

 

 

 

识别方法分类

 

效果对比:

 

 

 

未来发展及趋势

  • 构建更多的公开数据集
  • 从离线的识别方法向在线的识别方法进行转变
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值