首先,所有的字符在计算机上都是以二进制存储的;
1.JAVA 虚拟机 JVM 中的编码方式:
JAVA 虚拟机 JVM 把 JAVA 源代码编译成 Unicode 形式的 byte code ,其它数据在 JAVA 中也是以 UNICODE 形式存储的。
2. 汉字主要编码集的兼容关系:
汉字的主要字符集有: GB2312, GBK, GB18030 , UNICODE, UTF-8, BIG5;
其中 GBK 兼容 GB2312 , UNICODE 与 UTF-8 相对兼容(即可用一些公式进行转换,而无须知道两种字符表的一一映身关系)
GBK,GB2312,BIG5 都为双字节编码,即所有的字符在该字符集内都占两个字节;
而 GB18030 采用单字节,双字节,四字节的存储方式,其中 128 个 ASCII 符号为单字节区,所有汉字为双字节区;