藏文印刷体: 乌金体,又称有头体

藏文印刷体: 乌金体,又称有头体

摘要:

  • (1) 藏文属于拼音文字,基本字符由30个辅音字母和4个元音字符组成,其组成的现代藏文音节字数为592,包含572个藏文字丁。
  • (2)OCR 系统 通常以字丁为单位进行识别,根据部分论文的不完全统计1000份图片文档覆盖的字丁数大概为100个左右,
    因此,保守估计,全面覆盖字丁数,至少需要6000张文档标注。
  • (3)藏文标注时容易出现输入编码不统一的现象,需要在标注前提前统一。

1. 基本组成单元

1.1 基础字符 character

藏文属于拼音文字,由30个辅音字母,和4个元音字符组成。
这些字符按照一定的拼写规则构成了藏文的音节字。

1.2 增加字符

 为了满足语言翻译或者语言发展变化的实际需要,辅音和元音在原有基础上有所增加,增加后的辅音字符达到41个,元音字符达到15个
  • 增加的方式:
    (1) 反写
    (2)组合
    (3)添加辅助符号

1.3.其他字符

 除了上述字符外还包括:数字符号,标点符号,变音符号,篇章符,敬重符,吟咏示意符,吟诵会意符,占星符合装饰符。

2. 藏文的音节字 syllable

每个音节必须包含一个基字,基字可带前置、上置、下置、后置和再后置字母。

现代藏文音节字的总个数为592,藏文字丁总数为572 (一个音节字按照中间缝隙切开,则该字符分成了 4个字丁)
OCR系统,多以字丁为单位。

3. 书写形式:

书写形式分印刷体的有头字和手写体的无头字两种;
还有一种从无头字衍化而成了草书,它连笔较多,与有头字差别较大。行款自左向右横书,使用专门的标点符号
很多字母连写,中间会加入很多音节点,类似英文里的空格。

4. 藏文识别的难点:

  • (1) 藏文具有很多相似字符, 很多基础辅音字符差异很小,带来识别难度,需要增加标注数据。
  • (2) 藏文独特的叠字书写方式,使得藏文结构的解析比较复杂,可以以字丁为单位涵盖所有叠字结构,
    根据部分论文统计,1000份图片文档覆盖的字丁数大概为100多个,因此,保守估计,全面覆盖字丁数,至少需要6000张文档标注。
  • (3) 关于藏文识别的字符编码问题,可能会出现同形不同码现象(因此在标注时需要统一编码)
    同形不同码:由于藏文新增组合字符,不同的人在输入时习惯不同,可能有人以整体编码形式输入,有人以原始字符组合输入,导致字符编码不同。

5. 关于工程需要解决的基础问题:

  • (1) 输入法的选择?
  • (2) 如何获取藏文字丁?
    藏文编码字符集的扩充集在linux 上的实现, 中科院软件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491

参考文献

[1] 龙从军等, 中科院软件所,藏文编码字符集标准应用中的问题及对策
[2] 王维兰等, 藏文识别中相似字丁的区分研究
[3] 李永忠等,藏文印刷体字符识别技术研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).

相关网站:

[1] 藏语双语网 http://www.zanghansy.com/xzy/
[2] 藏语语言文字 http://mzw.qinghai.gov.cn/jjwhjy/wh/cc4b0e43_d93a_4b5c_89eb_ee5104cbf692.aspx
写自定义目录标题)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值