字符集（一）-unicode简介

最新推荐文章于 2025-03-18 16:31:39 发布

罗马骑士

最新推荐文章于 2025-03-18 16:31:39 发布

阅读量1.1k

点赞数 1

分类专栏： Windows编程文章标签： character 语言跨平台

Windows编程专栏收录该内容

14 篇文章

订阅专栏

定义：Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

发展历史：1990年开始研发（基于通用字符集（Universal Character Set）的标准来发展），1994年正式公布。2006年7月的最新版本的 Unicode 是5.0版本。 2005年3月31日推出的Unicode 4.1.0 。另外，5.0 Beta于2005年12月12日推出，5.2版本（unicode standard）于2009年10月1日正式推出，以供各会员评价。目前6.0版本已经马上就要发布。在unicode联盟网站上已经能看到6。.0 预发布的部分章节了。

下面重点介绍Unicode的编码方式。

Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112（也就是111多万）个字符，或者说有1114112个码位（也就是说一个码位对应一个字符）。我们假设一个平面可以容纳2^16(等同于256*256的正方形平面)个字符，Unicode计划使用了17个平面，所以一共有17*65536=1114112个码位（1114112就是这么来的）。

然后我们来看平面中具体存放哪些字符。

在Unicode 5.0.0版本中，已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区（Private Use Area），分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。所谓专用区，就是保留给大家放自定义字符的区域，可以简写为PUA。平面0也有一个专用区：0xE000-0xF8FF，有6400个码位。平面0的0xD800-0xDFFF，共2048个码位，是一个被称作代理区（Surrogate）的特殊区域。代理区的目的用两个UTF-16字符表示BMP以外的字符。在介绍UTF-16编码时会介绍。如前所述在Unicode 5.0.0版本中，238605-65534*2-6400-2408=99089。余下的99089个已定义码位分布在平面0、平面1、平面2和平面14上，它们对应着Unicode目前定义的99089个字符，其中包括71226个汉字。平面0、平面1、平面2和平面14上分别定义了52080、3419、43253和337个字符。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。

好像有个问题:99089个已定义分布的码位其中汉字就占了71226个，其他的字符难道就知只占了27863个？