ASCII与Unicode, codepage, utf-8

1. ASCII

  ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。

  因为1位二进制数可以表示(2=)2种状态:0、1;而2位二进制数可以表示(2=)4种状态:00、01、10、11;依次类推,7位二进制数可以表示(2=)128种状态,每种状态都唯一地编为一个7位的二进制码,对应一个字符(或控制码),这些码可以排列成一个十进制序号0~127。所以,7位ASCII码是用七位二进制数进行编码的,可以表示128个字符。   第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;   第33~126号(共94个)是字符,其中第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。   注意:在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。一个ASCll码由8位二进制数码组成的。其中,用于表达字符的二进制码有7个,最后一个用于检测错误,或空闲不用。

 

2.Unicode

  Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。
     Unicode使用两个字节表示一个字符, Unicode定义了大到足以代表人类所有可读字符的字符集, 可以容纳世界上所有文字和符号的字符。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

 

     那么既然Unicode统一了编码,如何兼容原先各国的文字编码呢?如中国的GB2312, GBK, 以及日文, 韩文等等.
   这个时候就需要codepage了。
 

3.Codepage

   什么是codepage?codepage就是各国的文字编码和Unicode之间的映射表。
  比如简体中文和Unicode的映射表就是CP936,点这里查看官方的映射表。

  以下是几个常用的codepage,相应的修改上面的地址的数字即可。
     codepage=936 简体中文GBK
     codepage=950 繁体中文BIG5
     codepage=437 美国/加拿大英语
     codepage=932 日文
     codepage=949 韩文
     codepage=866 俄文

     从936中随意取一行,例如:
     0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH
     前面的编码是GBK的编码,后面的是Unicode。
     通过查这张表,就能简单的实现GBK和Unicode之间的转换。


  现在明白了Unicode,那么UTF-8又是什么呢?又为什么会出现UTF-8呢?

 

4.Utf-8

 

 事实证明,对可以用ASCII表示的字符使用UNICODE并不高效,因为UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Universal Transformation Format)。目前存在的UTF格式有:UTF-7, UTF-7.5, UTF-8, UTF-16, 以及 UTF-32。

 UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

 UTF-8使用一至四个字节为每个字符编码:
 1.128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。
 2.带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。
 3.其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
 4.其他极少使用的Unicode 辅助平面的字符使用四字节编码。
 对上述提及的第四种字符而言,UTF-8使用四个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字符都可以用三个字节表示,而且它的另一种选择,UTF-16编码,对前述的第四种字符同样需要四个字节来编码,所以要决定 UTF-8或UTF-16哪种编码比较有效率,还要视所使用的字符的分布范围而定。不过,如果使用一些传统的压缩系统,比如DEFLATE,则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大,可以考虑使用Unicode标准压缩格式(SCSU)。

 互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码。[1] 互联网邮件联盟(IMC)建议所有电子邮件软件都支持UTF-8编码。所有主要的电子邮件软件中,只有Eudora不支持UTF-8编码。

 

 

5.GBK 及 GB2312

中国订定了GB 2312, 但只收录6763个汉字,有不少汉字,并未有收录在内。于是微软制定了GBK编码,也就是CP936字码表,最早实现于Windows 95简体中文版。

也就是说GBK自身并非国家标准,只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为“技术规范指导性文件”。而后续国家标准GB18030技术上兼容GBK, 显然,接受了。

 

参考:

ASCII
http://baike.baidu.com/view/15482.htm

unicode
http://baike.baidu.com/view/40801.htm
http://zh.wikipedia.org/wiki/Unicode

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值