常见字符编码

最新推荐文章于 2024-08-22 14:51:10 发布

绝地反击T

最新推荐文章于 2024-08-22 14:51:10 发布

阅读量824

点赞数

分类专栏： Java Servlet和Jsp 互联网

Java 同时被 3 个专栏收录

149 篇文章 2 订阅

订阅专栏

Servlet和Jsp

46 篇文章 2 订阅

订阅专栏

互联网

10 篇文章 0 订阅

订阅专栏

字符编码

字符编码概述

1　字符编码是什么？

我们知道，计算机数据只能是二进制的，数值类型的数据转换成二进制很简单，我们已经了解了，但字符类型如何转换成二进制呢？这就需要使用字符编码！

在编码表中，每个字符都有对应的编码，编码是整数，最终在计算机中存储的是字符的编码，而不是字符本身（因为计算机数据都是二进制数值，所以字符本身是无法存储的）。

当我们存储字符’A’时，其实是通过编码表找到’A’字符对应的编码，然后把编码存储在计算机中。即存储的是65。

当我们读取字符时，其实读取的也是字符的编码，然后使用编码再去编码表中查找对应的字符显示。

2　常见的字符编码

l ASCII

在所有字符集中，最知名的可能要数被称为ASCII的7位字符集了。它是美国标准信息交换代码（American Standard Code for Information Interchange）的缩写, 为美国英语通信所设计。它由128个字符组成，包括大小写字母、数字0-9、标点符号、非打印字符（换行符、制表符等4个）以及控制字符（退格、响铃等）组成。

l ISO-8859-1

由于ASCII是针对英语设计的，当处理带有音调标号（形如汉语的拼音）的欧洲文字时就会出现问题。因此，创建出了一些包括255个字符的由ASCII扩展的字符集。有一种8位字符集是ISO 8859-1Latin 1，也简称为ISO Latin-1。它把位于128-255之间的字符用于拉丁字母表中特殊语言字符的编码，也因此而得名。

l GB2312

GB2312是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集•基本集》，又称为GB0，由中国国家标准总局发布，1981年5月1日实施。GB2312编码通行于中国大陆；新加坡等地也采用此编码。

GB2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

对于人名、古汉语等方面出现的罕用字，GB2312不能完全包括，这导致了后来GBK及GB18030汉字字符集的出现。

GB2312兼容ASCII码，这部分还是每个字符占1个字节。每个汉字字符占2个字节。GB2312是中国自己的字符集，而其他国家也都有自己的字符集！！！

l Unicode

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的编码，以满足跨语言、跨平台进行文本转换、处理的要求。它通过增加一个高字节（2个字节）对ISO Latin-1字符集进行扩展，当这些高字节位为0时，低字节就是ISO Latin-1字符。UNICODE支持欧洲、非洲、中东、亚洲（包括统一标准的东亚象形汉字和韩国象形文字）。但是，UNICODE并没有提供对诸如Braille,Cherokee, Ethiopic, Khmer, Mongolian, Hmong, Tai Lu, Tai Mau文字的支持。同时它也不支持如Ahom, Akkadian, Aramaic, Babylonian Cuneiform, Balti, Brahmi,Etruscan, Hittite, Javanese, Numidian, Old Persian Cuneiform, Syrian之类的古老文字。Unicode支持ISO Latin-1（ISO-8859-1），而Latin-1包含了ASCII编码表。

l UTF-8

事实证明，对可以用ASCII表示的字符使用UNICODE并不高效，因为UNICODE比ASCII占用大一倍的空间，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（UniversalTransformation Format）。目前存在的UTF格式有：UTF-7, UTF-7.5, UTF-8, UTF-16, 以及 UTF-32。

UTF-8只是Unicode编码的一种转换方式，这时因为Unicode问题占用两个字节的空间，而且最为常用的ASCII编码部分只需要一个字节就可以了，所以才会出现通用转换格式（UTF）。

UTF-8对不同范围的字符使用不同长度的编码，ASCII编码部分与ASCII一样，都是1个字节。而汉字部分都是3个字节。