ascii编码和GB2312编码和UNICODE编码和UTF-8编码

最新推荐文章于 2021-06-01 18:07:22 发布

txt22

最新推荐文章于 2021-06-01 18:07:22 发布

阅读量853

点赞数 1

文章标签： transformation 扩展 character 语言算法资讯

本文链接：https://blog.csdn.net/txt22/article/details/5408300

版权

ascii编码和gb2312编码和和UNICODE编码和utf-8编码的关系

     开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。大家看到这样，都感觉很好，于是大家都把这个方案叫做 ANSI 的"Ascii"编码（American Standard Code for Information Interchange，美国信息互换标准代码）。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字。

    后来，世界各地的都开始使用计算机，但是很多国家用的不是英文，他们的字母里有许多是ASCII里没有的，为了可以在计算机保存他们的文字，他们决定采用 127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128 到255这一页的字符集被称"扩展字符集"。

    等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民，我们不客气地把那些127号之后的奇异符号们直接取消掉, 规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。

    于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩展。

    后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

    后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK 扩成了GB18030。从此之后，中华民族的文化就可以在计算机时代中传承了。

    就在这个时候，各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码，
正在这时，一个叫 ISO（国际标谁化组织）的国际组织决定着手解决这个问题。他们采用的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！他们打算叫它"Universal Multiple-Octet Coded Character Set"，简称 UCS, 俗称 "UNICODE"。

    那么既然统一了编码，如何兼容原先各国的文字编码呢？

    这个时候就需要codepage了。

　　什么是codepage？codepage就是各国的文字编码和Unicode之间的映射表。

　　比如简体中文和Unicode的映射表就是CP936，点这里查看官方的映射表。

　　以下是几个常用的codepage，相应的修改上面的地址的数字即可。

　　codepage=936 简体中文GBK

　　codepage=950 繁体中文BIG5

　　codepage=437 美国/加拿大英语

　　codepage=932 日文

　　codepage=949 韩文

　　codepage=866 俄文

　　codepage=65001 unicode UTF-8

　　最后一个65001，据个人理解，应该只是一个虚拟的映射表，实际只是一个算法而已。

UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。

    GB2312 编码码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，简单的来说它就是一种汉字的编码方式。它只能表示中文和英文还有特殊字符，不能表示如日语，韩语等其它语言。

    utf-8 是国际性的可变长度编码。对 Unicode 的可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符，且其编码中的第一个字节仍与 ASCII 相容。它可以表示世界上任何一种语言。

    ansii编码不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。
ASCII（American Standard Code for Information Interchange,美国资讯互换标准代码）是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单位元组编码系统，并等同于国际标准ISO/IEC 646。

    ASCII码：美国(国家)信息交换标准(代)码，一种使用7个或8个二进制位进行编码的方案，最多可以给256个字符(包括字母、数字、标点符号、控制字符及其他符号)分配(或指定)数值。

txt22

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ascii编码和GB2312编码和UNICODE编码和UTF-8编码

ascii编码和gb2312编码和和UNICODE编码和utf-8编码的关系开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。大家看到这样，都感觉很好，于是大家都把这个方案叫做 ANSI
复制链接

扫一扫