Script Identification of Multi-Script Documents: A Survey

本文链接：https://blog.csdn.net/Treasureashes/article/details/125840153

这是一篇2017年来自新疆大学的Survey，写得不是很好，没有提出什么观点，没有很好将各种方法串连起来，各种分类阐述也很粗暴。而且由于是2017年的文章，其中对当前研究的工作的总结已经不太具有太多的价值。但是其它方面的整理分类工作还是有一定价值，适合对script identification（脚本识别）这个领域没有太多了解的人了解一下。

在multi-script系统的OCR中，需要通过script identification去对各个script（脚本文本，可以理解为是语种）的比例进行检测。很多语种检测方面的工作研究的是Indian环境下的脚本，因为印度是一个多语种、多script的国家，它的官方语言有18种，不同的文本script有12种，官方文件被英语、印地语（Hindi (Devnagari)）及地方官方语言三种语言印发。

script writing system 文字书写系统

主要分为六大类：Logographic system形素文字系统、Syllabic system音节文字系统、Alphabetic System拼音文字系统、Abjads辅音音素文字系统、Abugidas元音附标文字、Featural system特征系统。

上述六种书写系统包括许多具有相似形状字符的脚本（script），这是脚本识别中混淆的主要来源。 通常，每个脚本都有多个空间字符、变音符号、多图（包括有向图）或与同一书写系统中的其他脚本不同的连字。 这些特征是识别的关键。

截至文章发表已经发表的一些识别方法，大部分都是在印刷后再用scanner扫描进行识别：

Script的特征

主要分为两种：

局部特征：从文档图像的小文本组件中提取，主要考虑对内在特征的分析，如基于字符形状的特征character shape based features、结构特征structural features、统计特征statistical features、基于形态拓扑和轮廓的特征morphological, topological and contour based features、基于水库原理的特征water reservoir principle based features等。
全局特征：从文档图像的文本块中提取，主要基于 DCT、DWT、Gabor、可控金字塔和 Radon 变换。这些对噪声具有鲁棒性，偏差小，计算速度比局部特征快。一般来说，全局特征被认为在表征大尺寸纹理图案方面是有效的，例如文本块。此外，由于这些特征将文本块视为一个单一实体，因此不可能在文本行、单词或连接组件级别进行分析。典型的全局特征来自纹理分析方法，包括 Gabor 滤波器、小波变换特征、离散余弦变换 (DCT) 、灰度共生矩阵、旋转不变特征、梯度特征、可控金字塔变换等。