我们常见的编码格式有ASCII码,GBK,Unicode, UTF-8,现在我们来说说他们之间的关系,首先最先出现的是ASCII码表,他是占一个字节的,是一套标准的信息交换表。
GBK是国标,它的出现是为了方便使用中文的我们,
GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的产物。ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与 Unicode 组织的 Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1)。
GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年10月制定, 1995年12月正式发布,目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN 7等都支持GBK编码方案。
Unicode,万国码,他是为了解决各个国家之间字符不同的矛盾,
它的机制是转换为字节类型的,然后各个国家用自己的编码进行解码,Unicode是以两个字节编码一个字符,所以他是不支持ASCII码表,
UTF-8,也称万国码,他是完善了Unicode的缺点,支持ASCII 码表, 是以三个字节编码一个字符