乌尔都语简介和Unicode由来

最新推荐文章于 2022-04-19 16:03:01 发布

天下太平

最新推荐文章于 2022-04-19 16:03:01 发布

阅读量4.3k

点赞数

分类专栏：工作文章标签： UNICODE Unicode unicode 乌尔都语

本文链接：https://blog.csdn.net/tianxia_taiping/article/details/8496377

版权

工作专栏收录该内容

7 篇文章

订阅专栏

本文介绍了乌尔都语的基本情况及其书写特点，并详细解释了Unicode编码的由来与发展，包括ASCII码的历史局限性、Unicode的设计初衷以及UTF-8的具体编码规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这几天项目组处理乌尔都语的短消息遇到点困难，我收集了一些关于乌尔都语及Unicode的资料，和大家分享下。

先开始介绍下乌尔都语：

乌尔都语原为印度大陆的本地语言，称为印度斯坦语。1947年印度独立和印巴分治，由于该地区语言繁杂，两国政府为了统一语言规范，巴基斯坦（*）和印度分别对乌尔都语进行“波斯化”和“梵文化”，形成了“乌尔都语”和“印地语”，并成为两国国语。故印度斯坦语也称为“印地-乌尔都语”。

巴基斯坦国语为乌尔都语，官方语言为英语。一般社会上层多使用英语，下层民众由于受教育程度偏低，多使用乌尔独语，而一些偏远部落和贫困地区，多使用部落语言或地方方言。使用比例约为 5:4:1。

巴基斯坦乌尔都语书写顺序为从右往左，语言表述结构为“主-宾-谓”，而汉语是“主-谓-宾”。

例如：我吃饭表意为“我饭吃” 书写顺序“吃饭我”

Unicode的由来：

最开始计算机诞生后，1967年美国设计了一种涵盖英语世界文字的编码规范，后来经过改进，并逐步成为美国文字编码的统一标准，即ASCCII码。ASCII码使用一个字节（8位）中的后7位，最高位做奇偶校验，用于校验网络传输中数据的完整性。这样ASCII码可以表示128个字符，包括数字、大小写字母、控制字符、和美国人常用的字符。后来传到欧洲，ASCII码不能满足需求，如法语会在字母的上方加声调。这样法语将做奇偶校验的那一位用于表示字符，这样可以表示256个字符。但这种规则在俄语、波兰语等语言中就不适用了，这些语言就采用两个字节（16位）编码，可以表示65536个字符。

在20世纪80年代计算机进入中国，首先需将计算机语言本土化，我国计算机工作者经过努力，1981年制定了汉字的编码标准，即GB2312（**），涵盖了绝大多数的常用汉字。该标准采用两个字节编码，故最多只能表示65536个汉字，而汉字有十万多个。这就是GB2312的局限所在。

至此，大部分国家都形成了适用于本国文字的编码规范。这样造成了国际上计算机语言不能互通的局面，需要一种可以表示所有语言的编码规范。Unicode诞生了，1990年开始设计，1994年正式发布。Unicode可以表示1114112个字符。首先强调Unicode编码是一种规范，没有规定其实现的形式。然而Unicode有两个问题：1.只规定了字符集的二进制，没有规定编码方式，造成有多种实现Unicode的编码方式。间接导致在一段时间内Unicode的推广受阻。2.在问题1的基础上，Unicode浪费空间，例如：空格 Unicode二进制为0x0020，在ASCII码中为0x20，这样对美国人而言需要增加一个毫无用处的全0字节。美国人当然不乐意了。

同时互联网的普及，强烈需要一种统一的便于网络传输的Unicode的实现方式。1992年UTF-8问世，当然此时的UTF-8还有点小问题，在后面版本中进行了相应的改进。后面还有UTF-16、UTF-32等，但在互联网上基本不用。

UTF-8编码规则仅有两条：

1.用一个字节编码时，最高位取0，后7为用于编码，这样与ASCII码保持一致。

2.用n个字节编码时，第一个字节的最高位取n个1+1个0，后面的字节前两位一律取10。

（*）1971年，第三次印巴战争，使得东巴独立，即孟加拉国。

（**）GB2312与Unicode、UTF-8毫无联系。

若有问题，欢迎提出，谢谢！