乌尔都语简介和Unicode由来

这几天项目组处理乌尔都语的短消息遇到点困难,我收集了一些关于乌尔都语及Unicode的资料,和大家分享下。
先开始介绍下乌尔都语:
       乌尔都语原为印度大陆的本地语言,称为印度斯坦语。1947年印度独立和印巴分治,由于该地区语言繁杂,两国政府为了统一语言规范,巴基斯坦(*)和印度分别对乌尔都语进行“波斯化”和“梵文化”,形成了“乌尔都语”和“印地语”,并成为两国国语。故印度斯坦语也称为“印地-乌尔都语”。
       巴基斯坦国语为乌尔都语,官方语言为英语。一般社会上层多使用英语,下层民众由于受教育程度偏低,多使用乌尔独语,而一些偏远部落和贫困地区,多使用部落语言或地方方言。使用比例约为 5:4:1。
       巴基斯坦乌尔都语书写顺序为从右往左,语言表述结构为“主-宾-谓”,而汉语是“主-谓-宾”。
       例如:我吃饭   表意为“我饭吃”  书写顺序“吃饭我”
 
Unicode的由来:
       最开始计算机诞生后,1967年美国设计了一种涵盖英语世界文字的编码规范,后来经过改进,并逐步成为美国文字编码的统一标准,即ASCCII码。ASCII码使用一个字节(8位)中的后7位,最高位做奇偶校验,用于校验网络传输中数据的完整性。这样ASCII码可以表示128个字符,包括数字、大小写字母、控制字符、和美国人常用的字符。后来传到欧洲,ASCII码不能满足需求,如法语会在字母的上方加声调。这样法语将做奇偶校验的那一位用于表示字符,这样可以表示256个字符。但这种规则在俄语、波兰语等语言中就不适用了,这些语言就采用两个字节(16位)编码,可以表示65536个字符。
       在20世纪80年代计算机进入中国,首先需将计算机语言本土化,我国计算机工作者经过努力,1981年制定了汉字的编码标准,即GB2312(**),涵盖了绝大多数的常用汉字。该标准采用两个字节编码,故最多只能表示65536个汉字,而汉字有十万多个。这就是GB2312的局限所在。
       至此,大部分国家都形成了适用于本国文字的编码规范。这样造成了国际上计算机语言不能互通的局面,需要一种可以表示所有语言的编码规范。Unicode诞生了,1990年开始设计,1994年正式发布。Unicode可以表示1114112个字符。 首先强调Unicode编码是一种规范,没有规定其实现的形式。然而Unicode有两个问题:1.只规定了字符集的二进制,没有规定编码方式,造成有多种实现Unicode的编码方式。间接导致在一段时间内Unicode的推广受阻。2.在问题1的基础上,Unicode浪费空间,例如:空格 Unicode二进制为0x0020,在ASCII码中为0x20,这样对美国人而言需要增加一个毫无用处的全0字节。美国人当然不乐意了。
       同时互联网的普及,强烈需要一种统一的便于网络传输的Unicode的实现方式。1992年UTF-8问世,当然此时的UTF-8还有点小问题,在后面版本中进行了相应的改进。后面还有UTF-16、UTF-32等,但在互联网上基本不用。
 
UTF-8编码规则仅有两条:
1.用一个字节编码时,最高位取0,后7为用于编码,这样与ASCII码保持一致。
2.用n个字节编码时,第一个字节的最高位取n个1+1个0,后面的字节前两位一律取10。
 
(*)1971年,第三次印巴战争,使得东巴独立,即孟加拉国。
(**)GB2312与Unicode、UTF-8毫无联系。
 
若有问题,欢迎提出,谢谢! 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值