字符编码
(Character encoding)、
字集码
是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位元组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7位元的二进制来表示这个整数。通常会额外使用一个扩充的位元,以便于以8位字节的方式存储。
现代编码模型将字符编码的概念分为:有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”(有限大小的数字)以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是建立一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。现代模型中所用的术语列在下面:
字符表(Character repertoire)是一个系统支持的所有抽象字符的集合。
编码字符集(CCS:Coded Character Set)是将字符集
中每个字符映射到一个非负整数
(称作码位),这个字符集及码位映射称为编码字符集。
![C](http://upload.wikimedia.org/math/0/d/6/0d61f8370cad1d412f80b84d143e1257.png)
![N](http://upload.wikimedia.org/math/8/d/9/8d9c307cb7f3c4a32822a51922d1ceaa.png)
字符编码表(CEF:Character Encoding Form)将编码字符集的非负整数值(即码位)转换成有限比特长度的整数值,以利于计算机系统使用固定比特长度的二进制形式表示该整数。
我们常见的如ASCII、UNICODE、GBK等,都能用以上定义来描述:把字符集中的字符,编码为指定集合中的某一对象。