java 字符码_Java字符编码详解

最新推荐文章于 2022-08-09 21:49:31 发布

ZJUAllen

最新推荐文章于 2022-08-09 21:49:31 发布

阅读量1.1k

点赞数

文章标签： java 字符码

本文链接：https://blog.csdn.net/weixin_35971653/article/details/114478501

版权

char

“字节”是byte，“位”是bit ；

1 byte = 8 bit ；

char 在Java中是2个字节。java采用unicode(《java核心技术卷一》里面有详细说明)，2个字节(16位)来表示一个字符。而Unicode编码包括汉字，所以也可以给char赋值汉字。

那么我们在程序中的char =‘\123’和char = ‘\u0023’甚至’\”’这些又是怎么回事呢？

这个需要从计算机的历史说起。

Ascii及中国的编码

既然是程序员，那么大家对Ascii肯定有一定的了解。

Ascii(American Standard Code for Information Interchange)，美国信息互换标准代码，官方的ASCII码表如下->AsciiTABLE。

Ascii为八位一个字节，一共可以组合出256(2的8次方)种不同的状态。

一开始美国人把其中的编号从0开始的32种状态分别规定了特殊的用途，一但终端、打印机遇上约定好的这些字节被传过来时，就要做一些约定的动作。遇上00x10, 终端就换行，例好遇上0x1b, 打印机就打印反白的字，或者终端就用彩色显示字母。

这些0x20以下的字节状态称为”控制码”。

接着把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。

后来，就像建造巴比伦塔一样，世界各地的都开始使用计算机，但是很多国家用的不是英文，他们的字母里有许多是ASCII里没有的。他们决定采用127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。

从128到255这一页的字符集被称”扩展字符集”。

等到我们天朝用计算机时发现挖槽你他妈一个位置都没留给我，我还有几千上万个文字要保存呢，于是我们自己创造了两个字节编码的“GB2312”以及之后的同样是两个字节的“GBK”。之后“GBK”扩展为“GB18030”，这些编码标准被通称为 “DBCS”(Double Byte Charecter Set 双字节字符集)。

DBSC系列的标准的最大特点是，最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里，如果一个字节小于127那么按照Ascii的编码，如果大于127那么其和后面的字符组成一个汉字字符。

然后各国也是按照自己的需求弄了一套自己可用的编码。很愉快大家都能用了，接着发现不对啊，各个国家之间电脑需要交流，你的资源到我这里编程乱码，我的资源你也用不了。

于是。。一个叫 ISO (国际标谁化组织)的国际组织决定着手解决这个问题。他们采用的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！他们打算叫它”Universal Multiple-Octet Coded Character Set”，简称 UCS, 俗称 “UNICODE”。

Unicode的字符编码表：来自维基百科的Unicode编码表

对于ascii里的那些“半角”字符(即前面排到128个字符)，UNICODE 包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。由于”半角”英文符号只需要用到低8位，所以其高8位永远是0，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。

Unicode及UTF

UNICODE 是用两个字节来表示为一个字符，他总共可以组合出65535不同的字符，这大概已经可以覆盖世界上所有文化的符号。UNICODE 如何在网络上传输也是一个必须考虑的问题，于是面向传输的众多 UTF(UCS Transfer Format)标准出现了，顾名思义，UTF8就是每次8个位传输数据，而UTF16就是每次16个位，只不过为了传输时的可靠性，从UNICODE到UTF时并不是直接的对应，而是要过一些算法和规则来转换。而且网络传输字符编码也涉及到大端小端的问题。

java中的编码

前面说了，java使用到编码是UNICODE。怎么具体“体会到”这种编码呢？我们可以用java中的转义符 \。

一、我们直接使用“\”来转化数字为字符的话，后面的数字应为八进制。

而且只能转化一个字节大小，即255个字符，如下：

八进制转义序列：\ + 八进制数；范围’\000’~’\377’(对应十进制0~255)

\0：空字符

有人问了Unicode不是两个字节吗，为什么这里一个字节就可以，其实java在这里会把它转化为两个字节按Unicode转换。记住是Unicode，不要因为一个字节就以为是ASCII编码，如下代码：

System.out.println('\367'); //这里输出的是 ÷

//八进制367转化为10进制为247

System.out.println((int) '÷');//输出十进制：247

//序号247在Ascii和Unicode对应的字符如下：

Ascii：