藏文印刷体：乌金体，又称有头体

最新推荐文章于 2022-04-17 16:41:33 发布

EricaApple

最新推荐文章于 2022-04-17 16:41:33 发布

阅读量6.1k

点赞数

分类专栏：多语言语种知识

本文链接：https://blog.csdn.net/EricaApple/article/details/103963994

版权

多语言语种知识专栏收录该内容

1 篇文章

订阅专栏

藏文印刷体：乌金体，又称有头体

摘要：

（1）藏文属于拼音文字，基本字符由30个辅音字母和4个元音字符组成，其组成的现代藏文音节字数为592，包含572个藏文字丁。
（2）OCR 系统通常以字丁为单位进行识别，根据部分论文的不完全统计1000份图片文档覆盖的字丁数大概为100个左右，
因此，保守估计，全面覆盖字丁数，至少需要6000张文档标注。
（3）藏文标注时容易出现输入编码不统一的现象，需要在标注前提前统一。

1. 基本组成单元

1.1 基础字符 character

藏文属于拼音文字，由30个辅音字母，和4个元音字符组成。
这些字符按照一定的拼写规则构成了藏文的音节字。

1.2 增加字符

 为了满足语言翻译或者语言发展变化的实际需要，辅音和元音在原有基础上有所增加，增加后的辅音字符达到41个，元音字符达到15个

增加的方式：
（1）反写
（2）组合
（3）添加辅助符号

1.3.其他字符

 除了上述字符外还包括：数字符号，标点符号，变音符号，篇章符，敬重符，吟咏示意符，吟诵会意符，占星符合装饰符。

2. 藏文的音节字 syllable

每个音节必须包含一个基字，基字可带前置、上置、下置、后置和再后置字母。

现代藏文音节字的总个数为592，藏文字丁总数为572 （一个音节字按照中间缝隙切开，则该字符分成了 4个字丁）
OCR系统，多以字丁为单位。

3. 书写形式：

书写形式分印刷体的有头字和手写体的无头字两种；
还有一种从无头字衍化而成了草书，它连笔较多，与有头字差别较大。行款自左向右横书，使用专门的标点符号
很多字母连写，中间会加入很多音节点，类似英文里的空格。

4. 藏文识别的难点：

（1）藏文具有很多相似字符, 很多基础辅音字符差异很小，带来识别难度，需要增加标注数据。
（2）藏文独特的叠字书写方式，使得藏文结构的解析比较复杂，可以以字丁为单位涵盖所有叠字结构，
根据部分论文统计，1000份图片文档覆盖的字丁数大概为100多个，因此，保守估计，全面覆盖字丁数，至少需要6000张文档标注。
（3）关于藏文识别的字符编码问题，可能会出现同形不同码现象（因此在标注时需要统一编码）
同形不同码：由于藏文新增组合字符，不同的人在输入时习惯不同，可能有人以整体编码形式输入，有人以原始字符组合输入，导致字符编码不同。

5. 关于工程需要解决的基础问题：

（1）输入法的选择？
（2）如何获取藏文字丁？
藏文编码字符集的扩充集在linux 上的实现，中科院软件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491

参考文献

[1] 龙从军等，中科院软件所，藏文编码字符集标准应用中的问题及对策
[2] 王维兰等，藏文识别中相似字丁的区分研究
[3] 李永忠等，藏文印刷体字符识别技术研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).