Unicode字符编码概要

本文介绍了Unicode字符编码模型,包括抽象字符表、编号字符集、字符编码形式和字符编码模式。详细讲解了ASCII和Unicode,特别是UTF-8、UTF-16和UTF-32编码形式的原理和特点。强调了UTF-8的兼容性和空间效率,以及UTF-16的变长编码和代理对概念。
摘要由CSDN通过智能技术生成

Unicode字符编码模型

首先讲「字符编码模型」,主要是为了阐明概念和说明术语,以提供讨论的上下文。

在Unicode Technical Report #17 UNICODE CHARACTER ENCODING MODEL 中,将字符编码的结构建模为下面4层:

  • ACR: Abstract Character Repertoire 抽象字符表

    • The set of characters to be encoded, for example, some alphabet or symbol set

    • 抽象字符表定义了待编码的无序字符集合,抽象字符指的是字母或者符号的本体

    • 很多ACR是封闭的,一经确定不能更改,但是Unicode标准中的ACR是开放的,可以不断扩充

      Unicode的实现可以只支持Universal Repertoire的子集

  • CCS: Coded Character Set 编号字符集

    • A mapping from an abstract character repertoire to a set of nonnegative integers
    • 编号字符集把抽象字符映射为(可以不连续的)非负整数,这个整数被称为抽象字符的码点(Code Point)
    • 编号的范围被称为编号空间(Code Space)
    • 编号的作用是为了方便管理和引用字符
    • 例子:U+2013表示Unicode的 201 3 ( 16 ) 2013_{(16)} 2013(16) 号字符
  • CEF: Character Encoding Form 字符编码形式

    • A mapping from a set of nonnegative integers that are element of a CCS to a set of sequences of particular code units of some specific width, such as 8-bit integers
    • 字符编码形式将每个字符编号
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值