深入理解 Unicode:在 Perl 中的应用与实践
1. Unicode 基础概念
Unicode 旨在为全球所有语言的字符提供统一编码,解决不同语言字符编码冲突问题。由于存在 ISO 标准和行业标准,出现了不同术语。例如,Unicode 标准定义的字符集在 ISO 标准里被称为通用字符集(UCS)。UCS 概念上是一系列立方体或组,每个平面有 256x256 个单元格,每组有 256 个平面,总共 128 组,可编码 2,147,483,648 个字符,但并非所有字符都会被分配。
Unicode 标准最初规定字符集最多包含 65,536 个字符,当时认为这足以涵盖全球语言。然而,随着需求增长,这个数量明显不足。Unicode 通过代理对扩展机制将字符范围扩展到两个字符。在 ISO 10646 中,这 65,536 个字符构成基本多语言平面(BMP),UCS 由多个平面组成。
ISO 标准为 UCS 定义了两种编码机制:UCS - 2 和 UCS - 4。UCS - 2 概念上与 UTF - 16 相同,只能编码 BMP 中的 65,536 个字符;UCS - 4 是四字节编码,能编码 UCS 中的所有码点,但每个字符需四个字节。
2. Unicode 联盟
ISO 和 Unicode 努力合并后,成立了 Unicode 联盟来管理和开发合并标准中的 Unicode 部分。该联盟于 1990 年成立,1991 年注册为 Unicode 公司。其技术工作由 Unicode 技术委员会(UTC)负责,UTC 发布 Unicode 标准并发布 Unicode 技术报告。联盟还维护多个邮件列表、常见问题解答等资源,可从其网站(http://
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



