编码介绍 ASCII与Unicode, codepage, utf-8

最新推荐文章于 2022-07-29 10:36:41 发布

安静平和

最新推荐文章于 2022-07-29 10:36:41 发布

阅读量2.7k

点赞数

分类专栏：计算机基础数据结构与算法文章标签：编码 ASCII Unicode

计算机基础同时被 2 个专栏收录

87 篇文章 2 订阅

订阅专栏

数据结构与算法

39 篇文章 1 订阅

订阅专栏

1. ASCII

　　ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646。

　　因为1位二进制数可以表示（2=）2种状态：0、1；而2位二进制数可以表示（2=）4种状态：00、01、10、11；依次类推，7位二进制数可以表示（2=）128种状态，每种状态都唯一地编为一个7位的二进制码，对应一个字符（或控制码），这些码可以排列成一个十进制序号0～127。所以，7位ASCII码是用七位二进制数进行编码的，可以表示128个字符。　　第0～32号及第127号(共34个)是控制字符或通讯专用字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（振铃）等；通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；　　第33～126号(共94个)是字符，其中第48～57号为0～9十个阿拉伯数字；65～90号为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。　　注意：在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)，其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。一个ASCll码由8位二进制数码组成的。其中，用于表达字符的二进制码有7个，最后一个用于检测错误，或空闲不用。

2.Unicode

　　Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。随着计算机工作能力的增强，Unicode也在面世以来的十多年里得到普及。
Unicode使用两个字节表示一个字符, Unicode定义了大到足以代表人类所有可读字符的字符集, 可以容纳世界上所有文字和符号的字符。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

那么既然Unicode统一了编码，如何兼容原先各国的文字编码呢？如中国的GB2312, GBK, 以及日文, 韩文等等.
　这个时候就需要codepage了。

3.Codepage

　什么是codepage？codepage就是各国的文字编码和Unicode之间的映射表。
　　比如简体中文和Unicode的映射表就是CP936，点这里查看官方的映射表。

　　以下是几个常用的codepage，相应的修改上面的地址的数字即可。
     codepage=936 简体中文GBK
     codepage=950 繁体中文BIG5
     codepage=437 美国/加拿大英语
     codepage=932 日文
     codepage=949 韩文
     codepage=866 俄文

     从936中随意取一行，例如：
     0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH
     前面的编码是GBK的编码，后面的是Unicode。
     通过查这张表，就能简单的实现GBK和Unicode之间的转换。

　　现在明白了Unicode，那么UTF-8又是什么呢？又为什么会出现UTF-8呢？

4.Utf-8

　事实证明，对可以用ASCII表示的字符使用UNICODE并不高效，因为UNICODE比ASCII占用大一倍的空间，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（Universal Transformation Format）。目前存在的UTF格式有：UTF-7, UTF-7.5, UTF-8, UTF-16, 以及 UTF-32。

　UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码（定长码），也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。

　UTF-8使用一至四个字节为每个字符编码：
　1.128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。
　2.带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码（Unicode范围由U+0080至U+07FF）。
　3.其他基本多文种平面（BMP）中的字符（这包含了大部分常用字）使用三个字节编码。
　4.其他极少使用的Unicode 辅助平面的字符使用四字节编码。
　对上述提及的第四种字符而言，UTF-8使用四个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字符都可以用三个字节表示，而且它的另一种选择，UTF-16编码，对前述的第四种字符同样需要四个字节来编码，所以要决定　UTF-8或UTF-16哪种编码比较有效率，还要视所使用的字符的分布范围而定。不过，如果使用一些传统的压缩系统，比如DEFLATE，则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大，可以考虑使用Unicode标准压缩格式（SCSU）。

　互联网工程工作小组（IETF）要求所有互联网协议都必须支持UTF-8编码。[1] 互联网邮件联盟（IMC）建议所有电子邮件软件都支持UTF-8编码。所有主要的电子邮件软件中，只有Eudora不支持UTF-8编码。

5.GBK 及 GB2312

中国订定了GB 2312, 但只收录6763个汉字，有不少汉字，并未有收录在内。于是微软制定了GBK编码，也就是CP936字码表，最早实现于Windows 95简体中文版。

也就是说GBK自身并非国家标准，只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为“技术规范指导性文件”。而后续国家标准GB18030技术上兼容GBK, 显然，接受了。

参考:

ASCII
http://baike.baidu.com/view/15482.htm

unicode
http://baike.baidu.com/view/40801.htm
http://zh.wikipedia.org/wiki/Unicode

安静平和

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编码介绍 ASCII与Unicode, codepage, utf-8

1. ASCII　　ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646。　　因为1位二进制数可以表示（2=）2种状态：0、1；而2位二进制数可以表示（2=）
复制链接

扫一扫