藏文印刷体: 乌金体,又称有头体
摘要:
- (1) 藏文属于拼音文字,基本字符由30个辅音字母和4个元音字符组成,其组成的现代藏文音节字数为592,包含572个藏文字丁。
- (2)OCR 系统 通常以字丁为单位进行识别,根据部分论文的不完全统计1000份图片文档覆盖的字丁数大概为100个左右,
因此,保守估计,全面覆盖字丁数,至少需要6000张文档标注。 - (3)藏文标注时容易出现输入编码不统一的现象,需要在标注前提前统一。
1. 基本组成单元
1.1 基础字符 character
藏文属于拼音文字,由30个辅音字母,和4个元音字符组成。
这些字符按照一定的拼写规则构成了藏文的音节字。
1.2 增加字符
为了满足语言翻译或者语言发展变化的实际需要,辅音和元音在原有基础上有所增加,增加后的辅音字符达到41个,元音字符达到15个
- 增加的方式:
(1) 反写
(2)组合
(3)添加辅助符号
1.3.其他字符
除了上述字符外还包括:数字符号,标点符号,变音符号,篇章符,敬重符,吟咏示意符,吟诵会意符,占星符合装饰符。
2. 藏文的音节字 syllable
每个音节必须包含一个基字,基字可带前置、上置、下置、后置和再后置字母。
现代藏文音节字的总个数为592,藏文字丁总数为572 (一个音节字按照中间缝隙切开,则该字符分成了 4个字丁)
OCR系统,多以字丁为单位。
3. 书写形式:
书写形式分印刷体的有头字和手写体的无头字两种;
还有一种从无头字衍化而成了草书,它连笔较多,与有头字差别较大。行款自左向右横书,使用专门的标点符号
很多字母连写,中间会加入很多音节点,类似英文里的空格。
4. 藏文识别的难点:
- (1) 藏文具有很多相似字符, 很多基础辅音字符差异很小,带来识别难度,需要增加标注数据。
- (2) 藏文独特的叠字书写方式,使得藏文结构的解析比较复杂,可以以字丁为单位涵盖所有叠字结构,
根据部分论文统计,1000份图片文档覆盖的字丁数大概为100多个,因此,保守估计,全面覆盖字丁数,至少需要6000张文档标注。 - (3) 关于藏文识别的字符编码问题,可能会出现同形不同码现象(因此在标注时需要统一编码)
同形不同码:由于藏文新增组合字符,不同的人在输入时习惯不同,可能有人以整体编码形式输入,有人以原始字符组合输入,导致字符编码不同。
5. 关于工程需要解决的基础问题:
- (1) 输入法的选择?
- (2) 如何获取藏文字丁?
藏文编码字符集的扩充集在linux 上的实现, 中科院软件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491
参考文献
[1] 龙从军等, 中科院软件所,藏文编码字符集标准应用中的问题及对策
[2] 王维兰等, 藏文识别中相似字丁的区分研究
[3] 李永忠等,藏文印刷体字符识别技术研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).
相关网站:
[1] 藏语双语网 http://www.zanghansy.com/xzy/
[2] 藏语语言文字 http://mzw.qinghai.gov.cn/jjwhjy/wh/cc4b0e43_d93a_4b5c_89eb_ee5104cbf692.aspx
写自定义目录标题)