编码认识

一、ANSI编码
决定用8个可以开合的晶体管来组合成不同的状态,八位的字节一共可以组合出256(2的8次方)种不同的状态,
从0开始的32种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作,
把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号。


二、扩展ANSI编码
世界各地的都开始使用计算机,他们决定采用127号之后的空位来表示这些新的字母、符号,还加入了很多画表格时需要用下
到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态255。从128到255这一页的字符集被称“扩展字符集”。


三、GB2312编码
当天朝人们得到计算机时,规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,
前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000
多个简体汉字了。
在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都
统统重新编了两个字节长的编码,这就是常说的“全角”字符,而原来在127号以下的那些就叫"半角"字符了。于是就把这种汉字
方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。
一个汉字两个字节即一个汉字两个英文字符由此而来。


四、GBK 和 GB18030编码
但是天朝的汉字太多了,后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是
一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,
同时又增加了近20000个新的汉字(包括繁体字)和符号。
后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030。


五、UNICODE编码
ISO (国际标谁化组织)的国际组织决定着手统一字符集。他们采用的方法很简单:废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!
他们打算叫它 UCS, 俗称 UNICODE 。( Universal Multiple-Octet Coded Character Set )
在UNICODE 中,一个汉字算两个英文字符的时代已经快过去了。
无论是半角的英文字母,还是全角的汉字,它们都是统一的“一个字符”!同时,也都是统一的“两个字节”。


六、UTF-8和UTF-16
UNICODE 如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据,
而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值