关闭

编码方式详解及由来

标签: 编码方式GBKASCII
34人阅读 评论(0) 收藏 举报

控制码:0-32

ASCII :33-127

ASCII 扩展字符集:128-255

GB2312:两个127后的字符连接起来就是汉字

GBK:高字节127后,低字节没有限制

GB18030:在GBK基础上有扩展增加少数民族的字

UNICODE:前127不变,之后的重新编制。都是采用的两个字节表示

UTF8/16:每次8/16个位传输数据

由来:有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为“字节”

8位的字节一共可以组合出256(2的8次方)种不同的状态

其中把从0开始的32种状态分别规定了特殊的用途,一但终端,打印机上约定好的这些字节被传过来时,就要做一些约定的动作,于是把这些0x20以下的字节状态称为"控制码"

他们又把所有空格,标点符号,数字,大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就可以用不同的字节来存储英文的文字了,大家看感觉都很好,于是大家都把这个方案叫做ANSI的“ASCII”编码(American Standard Information Interchange,美国信息互换标准代码)

后来,很多国家都是用计算机,发现他们的字母在ASCII里面有许多都是没有的,为了可以在计算机中保存它们的文字,决定采用127号之后的空位来表示这些新的字母,符号,还加入了很多画表格时需要的横线,竖线,交叉等形状,一直把序号编到了最后一个状态255.从128到255这一页的字符集被称“扩展字符集”。

等到中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存,但这并难不倒智慧的中国人民,我们毫不客气的把那些127号之后的起义符号们直接取消掉,规定:一个小于127的字符的意义和原来相同,但两个打印127的字符连接在一起就表示一个汉字,前面的一个字节(高字节)从0xA1用到0xF7,后面的一个字节(低字节)从0xA1到0xFE,这样我们就可以组出大约7000多个简体汉字,在这些编码里,我们还把有的数字,标点,字母都统统重新编入了两个字节长的编码,这就是常说的“全角”字符,而原来在127号以下的那些叫“半角”字符了

中国人民看到这样很不错,于是就把这种汉字方案叫做”GB2312“。GB2312是对ASCII的中文扩展

但是中国的汉字太多了,我们很快发现许多人的人名没有办法在这里打出来,特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把GB2312没有用到的编码找出来老实不客气的用上。

后来还是不够用,于是干脆不要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是汉字的开始,不管后面跟着的是不是扩展字符里面的内容,结果扩展之后的编码方案被称为GBK标准,GBK包括了GB2312的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号

后来少数民族也要用电脑,于是我们再扩展,又增加了几千个新的少数民族的字,GBK扩展成了GB18030。从此以后,中华民族的文化就可以在计算机时代中传承了

中国程序员看到这一系列汉字编码的标准是好的,于是通称他们叫“DBCS”(Double Byte Charecter Set 双字节字符集)。在DBCS系列标准里,最大的特点是两个字节长的汉字字符和一个字节长的英文字符并存于同一套编程方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127的,纳闷就认为一个双字节字符集里的字符出现了,那时候凡是收到支持,会编程的计算机僧侣,们都要每天念下面这个咒语数百遍:

“一个汉字算两个英文字符!一个汉字算两个英文字符。。。“

当时不同的地方都有自己一套的DBCS编码方案,要想在电脑上显示汉字,必须安装上一个”汉字系统“专门用来处理汉字的显示,输入的问题,装错了字符系统,显示就会乱了套,这怎么办?

正在这时,大天使加百列及时提出了一个叫ISO(国际标准化组织)的国际组织决定着手解决这个问题。他们采用的方法很简单:废除了所有地区性编码方案,重新搞了一个包括了地球上所有文化,所有字符和符号的编码!他们打算叫他”Universal Multiple-OctetCoded Character Set“,简称UCS,俗称”UNICODE“

UNICODE 开始制定时,计算机的存储器容量极大地发展了,空间再也不是问题了。于是ISO就直接规定必须用两个字符,也就是16位来统一表示所有的字符,对于ascii里面的那些”半角“字符,unicode其编码不变,只是将其长度由原来的8位扩展为16位,其他文化和语言的字符则全部重新统一编码。由于”半角“英文符号只需要用到低8位,所以其高8位永远是0,因此这种大气方案在保存英文文本时会多浪费一倍空间。

这时候,从旧社会出来的程序员发现一个奇怪的现象:他们的strlen函数靠不住了,一个汉字不再是相当于两个字符了,而是一个。从unicode开始,无论半角还是全角,他们都是统一的一个字符,一个字符就是两个字节,一个汉字算两个英文字符的时代很快过去了。

但是在UNCODE制定的时候没有考虑与任何一种现有的编码方案保持兼容,这使得GBK与UNCODE在汉字的内码编排上完全是不一样的,没有一个简单的算术方法可以把文本内容从UNCODE编码和另外一种编码进行转换,这种转换必须通过查表来进行;两个字节表示为一个字符,他总共可以组合出65535不同的字符,如果还不够,ISO已经准备了UCS-4方案,简单来说就是四个字节来表示一个字符。

UNICODE来到时,一起到来的还有计算机网络的兴起,UNICODE如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要经过一些算法和规则来转换

在网络传输中有个很重要的问题就是高低位传输,一把是高位显发送,为了核实高低位是否一致,采用了一种很简单的方法,就是在文2向对方发送一个标志符;如果之后的文本是高位在前,就发送”FEFF“,反之就发送”FFFE“。

移动之所以打不过移动的原因,是在windows的记事本里新建个文件,输入”联通“两字之后,保存,关闭,再次打开,就会发现出现乱码了!

其实这是因为GB2312编码方式与UTF8编码产生了编码冲撞的原因,联通的内码是 c1 1100 0001 aa 1010 1010  cd 11001101  a8 1010 1000  和第一二个和第三四个字节的起始都是”110“和10正好与UTF8规则里面的两字节模板是一致的  他们在0080-07ff之间用两个字节模板是110××××× 10××××××

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:37次
    • 积分:2
    • 等级:
    • 排名:千里之外
    • 原创:0篇
    • 转载:1篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档
    阅读排行
    评论排行